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计算 机 行业 正在 改变 我 们 的 社会 ， 正 如 物理 学 和 化 学 在 前 两 个 世 
纪 给 社会 融 来 的 巨大 改变 一 样 。 的 确 ， 数 字 技 术 几 乎 影响 甚至 题 禾 了 
我 们 生活 的 方方面面 。 鉴 于 计算 机 行业 对 现代 社会 的 重要 性 ， 人 们 对 
让 这 一 切 成 为 可 能 的 基本 概念 却 知之 甚 少 ， 这 显得 有 点 目 相 和 矛盾 。 对 
这 些 概念 的 研究 是 计算 机 科学 的 核心 ， 而 这 本 麦 考 密 克 的 新 书 则 是 同 
大 众 展示 这 些 概念 的 少数 书籍 之 一 。 


人 们 较 少 视 计 算 机 科学 为 一 门 学 科 ， 其 中 一 个 原因 是 ， 高 中 极 少 
开设 计算 机 科学 这 门 课程 。 虽 然 人 们 通 前 认为 要 强制 开设 物理 学 和 化 
学 基础 ， 但 作为 独立 学 科 的 计算 机 科学 ， 通 党 只 有 在 大 学 阶段 才 开 设 
此 课程 。 况 且 ， 学 校 讲授 的 “计算 机 ”或 “信息 与 通信 技术 ”知识 ， 通 党 
只 十 略 高 于 使 用 软件 的 技能 训练 。 因 此 ， 学 生 们 认为 计算 机 学 科 枯 燥 
也 并 不 意外 ;而 他 们 在 娱乐 和 通信 上 使 用 计算 机 技术 的 天 然 热 情 ， 也 
被 创造 这 类 技术 缺乏 学 术 深 度 的 印象 所 减弱 。 这 些 问题 被 认为 是 导致 
过 去 10 年 大 学 计算 机 科学 专业 学 生 人 数 下 降 一 半 的 核心 原因 。 考 虑 到 
数字 技术 对 现代 社会 的 极度 重要 性 ， 让 人 们 重新 领略 计算 机 科学 的 奇 
妙 之 处 已 经 刻不容缓 。 


2008 年 ， 我 很 采 对 地 被 选 为 第 180 届 英国 星 家 学 院 圣诞 讲座 
(Royal Institution Christmas Lectures) 的 演讲 人 ， 该 讲座 由 迈克 尔 : 法 
拉 第 (Michael Faraday) 于 1826 年 发 起 。2008 年 圣诞 讲座 的 主题 首次 
涉及 计算 机 科学 。 在 准备 这 些 讲 座 时 ， 我 花 了 很 多 时 间 来 思考 如 何 问 
大 众 解 释 计 算 机 科学 ， 却 发 现 满 足 这 一 需求 的 资源 很 少 ， 几 乎 没有 关 
于 计算 机 科学 的 畅销 书 。 因 此 ， 我 特别 高 兴 能 看 到 麦 考 密 元 的 这 本 新 
书 o 


麦 考 密 克 在 面向 大 众 介绍 计算 机 科学 的 复杂 思想 上 做 得 非常 好 。 
这 其 中 许多 思想 极其 新 颖 ， 仅 从 这 点 上 来 看 ， 它 们 可 很 值得 关注 。 举 
个 例子 : 电子 商务 的 爆炸 式 增长 之 所 以 成 为 可 能 ， 是 因为 具备 了 能 在 
互联 网 上 秘密 、 安 全 地 发 送 机 密 信息 (如 信用 卡 卡 号 ) 的 能 力 。 数 十 
年 来 ， 建 立 在 “开放 ?通道 上 的 保密 通信 被 认为 是 一 个 科学 难题 。 当 人 
们 发 现 解决 方法 时 ， 才 发 觉 保密 通信 极度 优雅 ， 而 麦 考 密 克也 以 精确 
的 类 比 进行 了 解释 ， 无 须 读者 拥有 计算 机 科学 知识 。 这 些 优点 使 这 本 
书 对 科普 读物 做 出 了 不 可 信和 量 的 页 献 ， 我 极力 推荐 本 书 。 
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第 一 草 “ 前 言 一 一 计算 机 日 划 运 用 的 早 越 
思想 有 哪些 


此 乃 小 技 .…… 为 诗 之 诀 在 于 有 和 气 、 
情 、 有 韵 、 有 起 、 有 承 、 有 转 、 有 
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势 、 有 


> 对 


介绍 : 


*20 世 纪 30 年 代 ， 在 第 一 台数 字 计 算 机 发 明 以 前 ,一 位 美国 天 
才 开 创 了 计算 机 科学 领域 。 之 后 ， 这 位 天 才 继 续 证 明 ， 不 管 未 来 
建造 的 计算 机 运行 多 快 、 功 能 多 强大 、 设 计 得 多 好 ， 仍 肯 有 一 些 
问题 是 计算 机 不 能 解决 的 。 

“1948 年 ， 一 位 供职 于 电话 公司 的 科学 家 发 表 了 一 篇 论文 ， 开 
创 了 信息 理论 领域 。 这 位 科学 家 的 工作 让 计算 机 能 以 完美 的 精确 
度 传输 信息 ， 即 便 大 部 分 数据 都 因为 被 干扰 而 破坏 。 

1956 年 ， 一 群 学 者 在 达 特 茅 斯 举行 会 议 。 这 次 会 议 的 目标 很 
清晰 ， 也 很 大 胆 ， 那 就 是 开创 人 工 稼 能 领域 。 在 取得 了 许多 重大 
成 功 以 及 经 历 了 无 数 失望 之 后 ， 我 们 仍 期 待 出 现 一 个 真正 的 智能 
计算 机 程序 。 


。1969 年 ，IBM 公 司 的 一 名 研究 人 员 发 明了 一 种 将 信息 组 织 进 
数据 库 中 的 先进 方法 。 目 前 ， 绝 大 多 数 在 线 交 易 都 使 用 该 技术 存 
储 及 检索 信息 。 


1974 年 ， 英 国政 府 秘密 通信 实验 室 的 研究 人 员 发 明了 一 种 让 
计算 机 安全 通信 的 方法 ， 即 另 一 人 台 计 算 机 可 以 碍 看 在 计算 机 之 间 
交换 的 所 有 信息 。 这 些 研 究 人 员 为 政府 保密 所 限 一 一 不 过 幸运 的 
征 ， 三 名 美国 专家 独立 开发 并 拓展 了 这 项 重大 发 明 ， 为 互联 网 上 
所 有 的 安全 通信 打下 了 基础 。 

“。 1996 年 ， 两 名 斯 坦 福 大 学 博士 生 决 定 联 手 搭建 一 个 互联 网 搜 
索引 擎 。 儿 年 后 ， 他 们 创办 了 谷歌 公司 一 一 互联 网 时 代 的 第 一 个 
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在 我 们 至 受 21 世 纪 技术 惊人 增长 的 同时 ， 使 用 计算 机 设备 一 一 不 
管 是 现 有 最 强大 的 一 组 机 右 还 古 最 新 、 最 时 尚 的 手持 设备 一 一 都 不 可 
避免 地 要 依赖 计算 机 科学 的 基础 思想 ， 而 这 些 思 想 都 诞生 于 20 世 纪 。 
想 一 想 : 你 今天 做 过 什么 令 人 印象 深刻 的 事情 吗 ? 好 吧 ， 这 个 问题 的 
答案 取决 于 你 怎么 看 。 也 许 你 搜索 了 包含 数 十 亿 份 文 档 的 资料 库 ， 从 
中 选 出 两 到 三 份 与 你 的 需求 最 相关 的 文档 ? 即便 有 能 够 影响 所 有 电子 
设备 的 电磁 干扰 ， 存 储 或 传输 了 数 百 万 条 信息 ， 也 没 犯 一 点 错误 ? 你 
是 否 成 功 地 完成 了 一 次 在 线 交 易 ， 即 便 同 时 有 成 和 上 万 名 消费 者 在 访 
问 同一 个 服务 器 ? 你 古 否 在 能 够 被 其 他 数 十 台 计 算 机 串 探 到 的 线路 中 
传输 了 一 些 机 密 信 息 (比如 信用 卡 卡 号 ) ? 你 是 否 运 用 过 压缩 的 魔 
力 ， 将 数 兆 的 照片 压缩 成 更 易于 管理 的 大 小 ， 以 便 在 电子 邮件 中 发 
送 ? 你 是 否 在 手持 设备 上 触发 了 人 工 智能 ， 目 动 纠正 你 在 手持 设备 的 
小 巧 键盘 上 输入 的 内 容 ? 


这 些 令 人 印象 深刻 的 壮举 都 依赖 于 之 前 提 到 的 伟大 发 现 。 然 而 ， 
绝 大 多 数 计 算 机 用 户 每 天 都 会 多 次 运用 这 些 独 创 想法 ， 却 从 没有 意识 


到 ! 本 书 旨 在 面 癌 大 众 解释 这 些 概念 一 一 我 们 每 天 使 用 的 计算 机 科学 
的 伟大 思想 。 在 解释 每 个 概念 时 ， 我 都 假设 读者 不 了 解 任 何 计 算 机 科 
学 的 任何 知识 。 


有 算法 ， 指 拓 精 灵 的 构件 


到 目前 为 止 ， 我 一 直 在 谈 计算 机 科学 的 伟大 “思想 ”， 但 计算 机 科 
学 家 们 将 许多 重要 思想 形容 为 “算法 ”。 那 么 思想 和 算法 之 间 有 什么 区 
别 呢 ? 究竟 什么 是 算法 ? 这 一 问题 最 简单 的 答案 定 ， 算 法 是 一 张 精 确 
的 处 方 ， 按 顺序 详细 列 出 了 解决 一 个 问题 所 需要 的 具体 步骤 。 我 们 小 
时 候 在 学 校 学 到 的 一 种 算法 区 是 很 好 的 例子 : 将 两 个 大 数字 相 加 的 算 
法 。 如 下 例 所 示 。 这 个 算法 涉及 一 连 串 步 又， 开始 的 步骤 如 下 : “ 首 
先 ， 将 两 个 数 的 最 末 位 数 相 加 ， 写 下 结 采 的 最 末 位 数 ， 将 剩 下 的 数 放 
到 左 侧 的 下 一 栏 ; 接着 ， 将 下 一 栏 的 数 相 加 ， 再 将 除 结果 末 位 数 之 外 
的 数字 和 前 一 栏 余下 的 数 相 加 .…… 
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将 两 个 数字 相 加 的 算法 的 前 两 步 。 


ee 。 事实 上 ， 这 年 算法 的 关键 特 
点 之 一 : 每 一 步 都 必须 绝对 精确 ， 没 有 任何 人 类 意图 或 推测 掺 杂 其 
中 这样， 每 一 个 完全 机 械 化 的 步骤 才能 被 编 入 计算 机 “。 算 法 的 另 一 
个 重要 特点 是 ， 不 管 输入 什么 ， 算 法 总 能 运行 。 我 们 在 学 校 学 到 的 相 
加 算法 就 拥有 这 一 符 性， 不管 你 想 把 哪 两 个 数 相 加 ， 算 法 最 终 部 会 得 
出 正确 答案 。 比 如 ， 用 这 一 算法 将 两 个 长 达 1 000 位 的 数 相 加 ， 你 肯定 
能 得 到 答案 ， 尽 管 这 需要 相当 长 的 时 间 。 


对 于 把 算法 定义 为 一 张 精 确 、 机 械 化 的 处 方 的 说 法 ， 你 也 许 会 略 
感 好 奇 。 这 张 处 方 究竟 要 有 多 精确 ? 要 进行 哪些 基本 操作 ? 比如 ， 在 
上 面 的 相 加 算法 中 ， 简 单 地 说 一 名 “把 两 个 数 相 加 ”是 不 是 就 行 了 ? 还 
是 说 我 们 要 在 加 法 表 上 列 出 所 有 个 位 数字 ? 这 些 细 下 看 起 来 也 许 有 点 
乏味 ， 甚 至 会 显得 有 点 学 究 气 ， 但 其 实 离 真 相 不 远 了 : 这 些 问题 的 真 
正 答 案 正 处 于 计算 机 科学 的 核心 ， 并 且 也 和 哲学 、 物 理学 、 神 经 科学 
以 及 遗传 学 有 联系 。 有 关 算 法 完 竟 是 什么 的 深层 问题 都 归结 于 一 个 前 
提 也 就 是 众所周知 的 印 奇 一 图 灵 论 题 (Church-Turing Thesis) 。 
我 们 将 在 第 十 章 重 温 这 些 问 题 ， 届 时 我 们 还 将 讨论 计算 的 理论 极限 ， 
以 及 印 奇 一 图 灵 论 题 的 一 些 方面 。 同 时 ， 将 算法 比 作 一 张 非常 精确 的 
处 方 这 一 非 正 式 概 念 效 果 会 非常 好 。 


现在 我 们 知道 了 算法 是 什么 ， 但 算法 和 计算 机 有 什么 联系 呢 ? 关 
键 在 于 ， 计 算 机 需要 用 非常 精确 的 指令 编程 。 因 此 ， 在 能 让 计算 机 为 
我 们 解决 东 个 特定 问题 之 前 ， 我 们 需要 为 那个 问题 开发 一 个 算法 。 在 
数学 和 物理 学 等 其 他 学 科 中 ， 重 要 的 结 采 通 第 是 由 一 个 方程 式 获 得 
的 。 (著名 的 例子 包括 勾 股 定理 2?+b?=c*， 或 爱 因 斯 坦 的 质量 守恒 定 
理 E =mc*。) 相反 ， 计 算 机 科学 的 伟大 思想 通常 是 形容 如 何 解 决 一 个 
问题 一 一 当然 ， 古 使 用 一 种 算法 。 因 此 ， 本 书 的 主要 目的 是 ， 解 释 让 
计算 机 成 为 你 的 个 人 精灵 的 东西 一 一 计算 机 每 天 使 用 的 伟大 算法 。 


| 一 个 伟大 的 算法 由 什么 构成 ? 


这 会 引出 一 个 刁 销 的 问题 : 什么 才 是 真正 伟大 的 "算法 ”? 洪 在 的 
候选 算法 清单 相当 大 ， 但 我 用 几 条 基本 标准 缩减 了 用 于 本 书 的 候选 算 
法 清单 。 第 一 条 ， 也 是 最 重要 的 一 条 标准 是 ， 伟 大 的 算法 要 被 普通 计 
算 机 用 户 每 天 用 到 。 第 二 条 重要 的 标准 是 ， 伟 大 的 算法 应 该 能 处 理 具 
体 的 现实 问题 ， 如 压缩 一 个 特定 文件 或 通过 一 个 噪声 链接 精确 地 传输 


文件 。 对 于 已 经 了 解 部 分 计算 机 科学 的 读者 而 言 ， 下 面 的 文字 框 解释 
前 面 两 大 标准 的 部 分 后 果 。 


第 一 条 标准 一 一 要 被 普通 计算 机 用 户 每 天 用 到 一 一 排除 了 主 
要 由 计算 机 专业 人 士 使 用 的 算法 ， 如 编译 虱 和 程序 验证 技术 。 第 
二 条 标准 一 一 针对 某 个 特定 问题 的 具体 程序 一 一 排除 了 许多 作为 
计算 机 科学 本 科 课 程 核心 内 容 的 伟大 算法 ， 如 排序 算法 (快速 排 
序 ) 、 图 形 算法 〈 迪 态 斯 特 拉 最 短路 径 算法 ) 、 数 据 结构 〈 哈 硕 
表 ) 。 这 些 算法 的 伟大 性 盆 庸 置疑， 而 且 很 轻易 地 就 满足 了 第 一 ; 
条 标准 ， 因 为 普通 用 户 使 用 的 绝 大 多 数 应 用 程序 都 会 反复 应 用 这 
些 算 法 。 但 这 些 算 法 太 通 用 了 : 它们 能 用 于 解决 众多 问题 。 在 本 
书 中 ， 我 决定 要 专注 于 解决 特定 问题 的 算法 ， 因 为 对 于 普通 计算 
机 用 户 而 言 ， 这 些 算法 能 让 他 们 拥有 更 清晰 的 动机 。 


一 些 和 本 书 选 取 算法 有 关 的 额外 细节 。 本 书 读者 无 须 具备 计算 机 科学 的 任何 知识 。 但 如 果 读 
a el 学 背景 知识 ， 这 个 文字 框 会 解释 为 何 这 类 读者 之 前 偏好 的 许多 内 容 没 有 出 现 
王 本 书 中 。 
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第 三 个 标准 是 ， 算 法 主要 和 计算 机 科学 理论 相关 。 这 排除 了 主要 
和 计算 机 硬件 一 一 如 CPU、 监 祝融 以 及 网 络 一 有关 的 技术 。 这 条 标 
准 也 减轻 了 对 基础 设施 一 一 如 互联 网 一 一 设计 的 重视 。 为 什么 我 要 着 
重 于 计算 机 科学 理论 ? 部 分 原因 是 由 于 公众 对 计算 机 科学 认 知 的 不 平 
衡 : 有 一 种 广泛 的 观点 认为 ,计算 机 科学 基本 上 就 是 编程 (如 “ 软 
件 ”) 和 设备 设计 (如 “硬件 ”) 。 事 实 上 ， 最 优美 的 计算 机 科学 思想 中 
有 许多 是 十 分 抽象 的 ， 并 不 属于 以 上 任意 一 类 。 我 布 望 通过 着 重 于 这 
些 理论 思想 ， 让 更 多 人 将 计算 机 科学 的 本 质 作为 一 门 知识 学 科 来 理 
解 。 


你 也 许 已 经 注意 到 了 ， 我 列 出 的 标准 可 能 会 遗漏 一 些 伟大 的 算 
法 ,但 却 从 一 开始 束 避 免 了 定义 伟大 这 个 极其 麻烦 的 问题 。 针 对 这 一 


问题 ， 我 依赖 于 目 己 的 直觉 。 在 本 书 中 说 明 的 每 一 个 算法 中 ， 其 核心 
都 是 一 个 让 整 件 事情 奏效 的 精巧 把 戏 。 对 我 而 言 ， 当 这 个 把 戏 显露 出 
来 时 ， 那 个 “惊叹 ?时 刻 ， 会 让 解释 这 些 算 法 成 为 令 人 和 愉悦 的 经 历 ， 我 
希望 你 也 能 有 此 感受 。 因 为 我 会 用 到 “把 戏 ”(trick) 这 个 词 很 多 次 ， 

需要 指出 的 征 ， 我 并 非 指 那些 卑劣 或 蚤 人 的 把 戏 一 一 那 种 孩子 可 能 会 
用 在 第 第 或 妹妹 身上 的 把 戏 。 相 反 ， 本 书 中 的 把 戏 类 似 于 交易 诀 穷 或 
魔术 : 为 达成 目标 而 采用 的 聪明 技巧 ， 否 则 目标 很 难 或 不 可 能 达成 。 


因此 ， 根 据 直 觉 ， 我 选 出 了 目 认 为 是 计算 机 科学 世界 中 最 精巧 、 
最 神奇 的 把 戏 。 在 英国 数学 家 高 德 菲 : 哈 罗 德 .哈代 (G. H. Hardy) 的 
《一 个 数学 家 的 辩 白 》 (A Mathematician's Apology) 中 ， 作 者 试 
图 同 公众 解释 数学 家 从 事 数 学 的 原因 : “ 美 是 第 一 道 测试 ， 丑陋 的 数学 
在 这 个 世界 中 无 永存 之 地 。” 这 道 美 的 测试 也 适用 于 计算 机 科学 中 强 含 
的 理论 思想 。 因 此 ， 选 取 在 本 书 中 出 现 的 算法 的 最 后 一 条 标准 ， 束 是 
哈代 的 一 一 也 许可 以 这 么 称呼 一 一 美的 测试 : 和 希望 我 至 少 能 成 功 地 问 
读者 展示 部 分 美 一 -我 在 每 个 算法 中 感觉 到 的 美 。 


接 下 来 谈 谈 我 选择 展示 的 这 些 算法 。 搜 索引 擎 的 巨大 影响 ， 也 许 
征 算 法 技术 影响 所 有 计算 机 用 户 最 明显 的 例子 ， 我 目 然 也 将 部 分 互联 
网 搜索 的 核心 算法 收入 了 本 书 中 。 第 二 章 撒 述 了 搜索 引擎 如 何 使 用 索 
引 寻 找 与 请 求 的 文件 ， 而 第 三 章 则 解释 了 网 页 排名 (PageRank) 算法 
一 一 合 歌 公 司 为 保证 匹配 度 最 高 的 文件 出 现在 搜索 结 末 列表 顶部 的 原 
始 算法 。 


即便 我 们 不 经 常 想 这 件 事情 ， 绝 大 多 数 人 也 能 意识 得 到 ， 为 提供 
出 人 意料 的 强大 搜索 结果 ， 搜 索引 擎 使 用 着 一 些 深 簿 的 计算 机 科学 思 
想 。 相 反 ， 其 他 一 些 伟大 的 算法 也 经 常 彼 用 到 ， 但 计算 机 用 户 对 此 其 
至 都 没有 意识 到 。 第 四 章 描 述 的 公 钥 加 密 (public key cryptography) 
就 是 这 样 一 种 算法 。 用 户 每 次 访问 一 个 安全 网 站 (地 址 以 https 而 非 http 
开头 ) ， 用 户 都 会 用 到 公 钥 加 密 的 一 个 方面 一 一 也 就 是 众所周知 的 密 


钥 交 换 (key exchange) 来 展开 一 段 安全 对 话 。 第 四 章 解 释 了 密 铀 


交换 过 程 的 实现 原理 。 


第 五 章 的 主题 是 纠 错 码 (error correcting codes) ， 这 是 我 们 经 常 
使 用 但 却 没有 意识 到 的 另 一 类 算法 。 事 实 上 ， 纠 错 码 极 有 可 能 是 有 史 
以 来 唯一 一 个 使 用 次 数 最 频繁 的 伟大 算法 。 纠 错 码 可 以 让 计算 机 识别 
并 纠正 在 储存 或 传输 数据 中 出 现 的 错误 ， 而 不 必 依 靠 备 份 或 再 次 传 
输 。 纠 错 码 无 处 不 在 : 它们 被 用 于 所 有 硬盘 驱动 器 、 众 多 网 络 传输 、 
CD 和 DVD， 甚 至 还 存在 于 一 些 计算 机 的 内 存 。 不 过 ， 纠 错 码 的 能 力 太 
强 了 ， 以 至 于 我 们 意识 不 到 它们 存在 。 


第 六 章 稍 微 有 点 特殊 ， 介 绍 了 图 形 识 别 算法 (pattern recognition 
algorithm) 。 图 形 识别 算法 也 能 进入 伟大 的 计算 机 科学 思想 榜 单 ， 但 
却 违背 了 第 一 条 标准 : 要 被 普通 计算 机 用 户 每 天 用 到 。 图 形 识别 属于 
计算 机 识别 高 度 可 变 信息 一 一 如 笔迹 、 讲 话 和 人 脸 一 一 的 技术 。 事 实 
上 上， 在 21 世 纪 的 第 一 个 十 年 ， 绝 大 多 数 日 常 计算 并 没有 用 到 这 些 技 
术 。 但 在 2011 年 ， 图 形 识别 的 重要 性 急剧 增 大 ， 配备 小 型 屏幕 键盘 的 
移动 设备 需要 自动 纠 错 ， 平 板 设 备 必须 识别 手写 输入 ， 而 且 所 有 这 些 
设备 〈 特 别 是 智能 手机 ) 越 来 越 趋向 于 语音 操作 。 一 些 网 站 甚至 使 用 
图 形 识别 来 决定 同 用 户 展 示 哪 种 广告 。 男 外 ， 我 对 图 形 识 别 也 有 偏 
好 ， 因 为 它 是 我 的 研究 领域 。 因 此 ， 第 六 章 摘 述 了 3 种 最 有 趣 、 最 成 功 
的 图 形 识别 技术 : 最 近邻 分 类 器 (nearest-neighbor classifier) 、 决 策 
树 (decision tree) 以 及 神经 网 络 (neural network) 。 


第 七 草 讨论 了 压缩 算法 。 压 缩 算法 组 成 了 为 一 组 使 计算 机 变 成 我 
们 指 尖 精灵 的 伟大 思想 。 计 算 机 用 户 的 确 会 时 不 时 地 直接 进行 压缩 ， 
也 许 古 为 了 节省 亿 c 盘 空间 ， 也 许 是 为 了 缩减 照片 容量 ， 以 便 用 电子 邮 
件 寄 出 。 不 过 在 私 展 下， 压缩 使 用 的 频率 要 更 高 ， 我 们 根本 没有 意识 
到 ， 我 们 的 下 载 或 上 传 也 可 以 通过 压缩 以 节省 融 宽 ， 而 数据 中 心 通 党 
会 压缩 消费 者 的 数据 以 降低 成 本 。 电 子 邮 件 提供 商 提 供给 你 的 5 GB 空 


间 ， 经 压缩 后 很 有 可 能 只 占据 电子 邮件 提供 商 5 GB 空间 的 很 小 一 部 


第 八 章 讲 到 了 数据 库 中 运用 的 一 些 基础 算法 。 这 一 章 侧 重 为 实现 
一 致 性 指 一 个 数据 库 中 的 关系 不 互相 冲突 一 -而 采用 的 聪明 技 
巧 。 没 有 这 些 精巧 的 技术 ， 我 们 的 绝 大 部 分 在 线 生活 (包括 网 络 购物 
以 及 通过 Facebook 之 类 的 社交 网 站 进行 互动 就 会 消亡 于 众多 计算 机 
错误 中 。 这 一 章 解释 了 一 致 性 真正 的 问题 是 什么 ， 以 及 计算 机 科学 家 
是 如 何 解决 这 一 问题 的 。 前 提 是 不 牺牲 我 们 所 期 望 的 在 线 系统 拥有 的 


高 效 性 。 


在 第 九 章 ， 我 们 会 了 解 理 论 计算 机 科学 无 可 和 争议 的 瑰宝 之 一 : 数 
字 签 名 。 乍 看 之 下 ， 用 数字 形 陈 “ 釜 署 "一 份 电子 文档 似乎 不 可 能 。 你 
也 许 会 想 ， 这 种 签名 必须 由 数字 信息 组 成 ， 而 任何 想 要 伪造 签名 的 人 
都 可 以 过 不 费力 地 拷贝 这 些 信息 。 这 一 迟 论 的 解决 方案 ， 驶 是 计算 机 
科学 取得 的 最 令 人 瞩目 的 成 吏 之 一 。 


第 十 章 采取 了 截然 不 同 的 视角 : 与 其 描述 一 个 已 经 存在 的 伟大 算 
法 ， 我 们 不 如 去 了 解 一 个 假如 存在 则 必然 会 伟大 的 算法 。 不 过 我 们 会 
震惊 地 发 现 ， 这 个 特别 伟大 的 算法 不 可 能 存在 。 这 表明 计算 机 解决 问 
题 的 能 力 存在 一 些 绝对 极限 ， 而 我 们 将 徐 单 地 从 哲学 和 生物 学 角度 探 
讨 这 一 结果 的 应 用 。 


第 十 一 章 我 们 会 总 结 伟大 算法 的 一 些 共 性 ， 化 些 时 间 畅 想 未 来 会 
蚊 样 。 会 有 更 多 伟大 算法 出 现 吗 ? 或 者 说 ， 我 们 已 经 发 现 了 所 有 的 伟 
大 算法 ? 


在 此 ， 不 得 不 提前 说 一 下 本 书 的 风格 。 任 何 科普 作品 都 必须 清楚 
地 告知 来 源 ， 但 引用 会 破坏 文本 的 流畅 性 ， 并 让 读者 产生 学 术 的 感 
觉 。 由 于 可 读 性 和 易 读 性 是 本 书 的 首要 目标 ， 所 以 本 书 正文 不 会 出 现 
引用 。 不 过 ， 我 清楚 地 记录 了 所 有 来 源 ， 并 在 本 书 末 尾 的 “来 源 和 延伸 


阅读 ”板块 中 列 出 ， 并 时 不 时 附 上 拓展 评论 。 这 个 板块 还 列 出 了 一 些 额 
外 材料 ， 以 便 感 兴趣 的 读者 能 去 寻找 更 多 和 计算 机 科学 中 伟大 算法 有 
天 的 东西 。 


既然 提前 说 了 本 书 的 风格 ， 我 还 要 谈 谈 本 书 书 名 中 采取 的 少量 诗 
化 。 本 书 无 疑 是 章 命 性 的 ， 但 真 的 有 九 种 算法 吗 ? 这 一 说 法 值得 探 
讨 ， 因 为 要 取决 于 有 多 少 算法 被 算 作 单独 算法 。 让 我 们 来 算 下 “ 九 ” 是 
皇 么 来 的 。 除 了 前 言 和 结论 两 章 外 ， 本 书 还 有 九 章 ， 每 一 章 都 介绍 了 
对 一 种 计算 任务 产生 革命 性 影响 的 算法 ， 例 如 加 密 、 压 缩 、 图 形 识 
别 。 因 此 ， 书 名 中 的 “ 九 大 算法 ”实际 上 指 的 是 处 理 这 九 种 任务 的 九 类 
算法 。 


为 什么 我 们 要 关注 这 些 伟大 的 算法 ? 


希望 对 这 些 迷 人 思想 的 快速 总 结 能 让 你 淘 户 深入 了 解 它们 的 运行 
方式 。 不 过 ， 也 许 你 仍然 在 思考 ， 本 书 的 终极 目标 是 什么 ?让 我 位 短 
地 说 下 本 书 的 真正 目的 。 这 本 书 绝 不 是 一 本 问答 式 操 作 手 册 。 在 读 完 
本 书后 ， 你 不 会 成 为 计算 机 安全 方面 的 专家 ， 也 不 会 成 为 人 工 智能 或 
其 他 领域 的 专家 。 你 也 许 能 学 到 一 些 有 用 的 技能 ， 这 倒是 真 的 。 比 
如 : 你 会 对 如 何 检查 “安全 ”网 站 凭证 以 及 “已 签名 ”软件 包 了 解 更 多 ，; 
你 能 针对 不 同 任务 在 有 损 和 无 损 压缩 之 间 做 出 明知 选择， 而且 通过 理 
解 搜 索引 擎 索引 和 排名 技术 的 某 些 方面 ， 你 能 更 高 效 地 使 用 搜索 引 


擎 。 


在 读 完 本 书后 ， 你 不 会 成 为 一 名 更 加 熟练 的 计算 机 用 户 。 但 你 会 
更 加 珍视 每 天 在 所 有 计算 设备 上 不 停 使 用 的 思想 的 美 。 

为 什么 这 是 件 好 事 ? 我 用 类 比 的 方式 来 说 明 。 我 肯定 不 是 一 位 天 
文学 专家 一 事实 上 ， 我 在 这 个 项 目 上 相当 无 知 ， 我 想 知道 更 多 。 但 


每 当 我 注视 夜 衬 ， 我 知道 的 少量 天 文学 知识 增强 了 我 对 这 一 经 验 的 孚 
受 。 有 时， 我 对 目 己 看 到 事物 的 理解 ， 让 我 产生 了 一 种 满足 和 惊奇 的 
感觉 。 硕 望 在 读 完 本 书后 ， 你 在 使 用 计算 机 时 也 能 经 常 获得 同样 的 满 
足 和 惊奇 之 感 ， 这 也 是 我 急切 的 希望 。 你 将 真正 珍视 我 们 时 代 最 和 
见 、 最 神秘 的 黑 盒 子 ， 你 的 个 人 电脑 ， 你 指 尖 的 精灵 。 


第 二 章 ”搜索 引擎 系 引 一 一 在 世 寞 上 最 大 
的 草 霖 中 导 针 


哈 克 ， 在 咱 俩 站 着 的 地 方 的 下 面 ， 你 拿 一 丰 
钓鱼 竿 就 可 以 触 到 我 钻 出 来 的 那个 洞 。 看 看 
你 能 不 能 找到 。 


一 一 马 苑 ' 吐 温 ， 

《汤姆 : 索 亚 历 险 记 》 (Tom Sawyer) 
搜索 引 警 对 我 们 的 生活 产生 了 深远 影响 。 绝 大 多 数 人 每 天 都 进行 
多 次 搜索 查询 ， 但 我 们 极 少 会 停 下 来 思考 这 个 令 人 惊叹 的 工具 是 如 何 
奏效 的 。 搜 索引 擎 提供 的 海量 信息 以 及 搜索 结 采 的 速度 与 质量 变 得 如 
此 平常 ， 如 果 我 们 搜索 的 问题 没有 在 几 秒 内 得 到 回答 ， 我 们 整 会 困 
惑 。 我 们 倾 回 于 瑟 记 ， 每 一 个 成 功 的 搜索 引擎 都 是 从 世界 上 最 大 的 草 

白 一 一 万 维 网 一 一 村 针 。 


事实 上 ， 搜 索引 擎 提供 的 超级 服务 ， 不 仅仅 是 针对 搜索 抛 出 一 大 

堆 花 哨 技 术 的 结果 。 的 确 ， 每 个 大 型 搜索 引擎 公司 都 运营 着 一 个 由 无 
数 数 据 中 心 组 成 的 国际 网 络 ， 其 中 包括 数 以 千 计 的 服务 右 计 算 机 和 先 
进 的 网 络 设备 。 但 没有 聪明 的 算法 来 组 织 和 检索 我 们 请 求 的 信息 ， 所 
有 这 些 硬件 都 会 变 得 毫 无 用 处 。 因 此 ， 在 这 一 章 和 下 一 章 ， 我 们 将 探 
究 这 样 一 些 算 法 瑰宝 一 一 每 次 在 进行 网 络 搜索 时 ， 我 们 都 会 用 到 这 些 
算法 。 我 们 很 快 束 会 了 解 到 ， 搜 索引 擎 的 两 大 主要 任务 瓯 是 匹配 
(matching) 和 排名 (ranking ) 。 这 一 章 将 讲述 一 种 聪明 的 匹配 技 


术 : 元 词 把 戏 (metaword trick) 。 在 下 一 章 ， 我 们 将 转 而 讨论 排名 任 
务 ， 审 视 谷歌 公司 著名 的 网 页 排名 算法 。 


| 匹配 和 排名 


当 你 发 起 一 次 网 络 搜索 查询 时 会 发 生 什 么 ?以 这 样 一 种 高 屋 建 令 
的 视角 开始 会 很 有 帮助 。 我 已 经 说 过 ， 搜 索 有 两 个 主要 阶段 ， 匹配 和 
排名 。 在 实际 中 ， 搜 索引 警 将 匹配 和 排名 组 合成 一 个 流程 以 实现 一 致 
性 。 但 这 两 个 阶段 在 概念 上 是 独立 的 ， 因 此 我 们 会 假设 在 排名 开始 
前 ， 人 匹配 已 经 完成 。 上 图 就 给 出 了 一 个 例子 ， 图 中 查询 的 是 “London 
bus timetable” (伦敦 公共 汽车 时 刻 表 ) ， 而 匹配 阶段 则 回答 “哪个 网 页 
与 我 的 查询 匹配 * 这 个 问题 一 一 在 这 个 例子 中 就 是 所 有 提 到 “London 
bus timetable” 的 网 页 。 


匹配 后 的 网 页 排名 后 的 网 页 


网 络 搜索 的 两 个 阶段 ， 匹 配 和 排名 。 在 第 一 阶段 《匹配 ) 后 可 能 会 出 现 数 千 或 数 百 万 个 匹配 
结果 ， 这 些 结果 必须 按照 相关 度 在 第 二 阶段 (排名 ) 进行 排序 。 


— 


但 现实 搜索 引擎 中 的 许多 查询 都 有 数 百 、 数 千 力 至 数 百 万 个 “ 命 
中 ”。 而 搜索 引 敬 用 户 通 第 只 喜欢 查看 几 个 结 采 ， 最 多 5 个 或 10 个 。 
此 ， 搜 索引 擎 必须 从 大 量 命中 里 挑 出 最 好 的 几 个 。 一 个 好 的 搜索 引擎 


不 仅仅 会 挑 出 最 好 的 几 个 命中 ， 而 且 会 以 最 有 用 的 顺序 显示 它们 一 一 
最 匹配 的 页 面 排 在 第 一 ， 然 后 是 匹配 度 排名 第 二 的 页 面 ， 依 此 类 推 。 


以 正确 顺序 挑选 出 最 好 的 几 个 命中 被 称 为 “排名 ”。 排 名 是 关键 的 
第 二 个 阶段 ， 紧 随 最 开始 的 匹配 阶段 。 在 搜索 行业 的 残酷 世界 中 ， 搜 
索引 苟 的 生死 由 其 排名 系统 的 质量 决定 。2002 年 ， 美 国 前 三 大 搜索 引 
擎 的 市 场 份额 基本 相当 ， 合 歌 、 雅 虎 和 MSN 在 美国 的 市 场 份额 都 在 
30% 以 下 。[MSN 随 后 被 重新 包 厂 成 Live Search， 之 后 义 被 命名 
为 必 应 (Bing) 。] 之 后 几 年 ， 谷 歌 的 市 场 份额 迅速 扩大 ， 同 时 将 雅 
虎 和 MSN 的 市 场 份额 打压 到 了 20% 以 下 。 人 们 普遍 认为 ， 谷 歌 迅速 上 
升 为 搜索 行业 冠军 是 得 益 于 其 排名 算法 。 因 此 ， 暑 不 夺 张 地 说 ， 搜 索 
引擎 的 生死 由 其 排名 系统 的 质量 决定 。 不 过 ， 正 如 我 已 经 提 到 的 ， 我 
们 将 在 下 一 章 探讨 排名 算法 。 至 于 现在 ， 让 我 们 专注 于 匹配 阶段 吧 。 


AltaVista: 第 一 个 互联 网 级 别 的 匹配 算法 


搜索 引擎 匹配 算法 的 故事 从 哪里 开始 ? 一 个 很 显然 却 错误 的 回答 
会 说 从 谷歌 一 21 世纪 初期 最 伟大 的 技术 成 功 故 事 一 开始。 事实 
上 ， 合 歌 最 初 只 是 两 位 斯 坦 福 大 学 研究 生 的 博士 学 位 项 目 ， 这 个 故事 
不 仅 温暖 人 心 ， 而 且 令 人 印象 深刻 。 拉 里 . 佩 奇 (Larry Page) 和 谢 尔 
盖 : 布 林 (Sergey Brin) 在 1998 年 组 装 了 一 堆 计 算 机 硬件 来 运行 一 种 新 
的 搜索 引擎 。 不 到 10 年 ， 他 们 的 公司 成 为 了 互联 网 时 代 崛 起 的 最 伟大 
的 数字 巨人 。 


不 过 ， 互 联网 搜索 的 想法 已 经 存在 很 多 年 了 。 最 早 的 商业 应 用 是 
Infoseek 和 Lycos (两 者 都 于 1994 年 推出 ) ， 以 及 于 1995 年 推出 搜索 引 
擎 的 AltaVista。20 世 纪 90 年 代 中 期 的 几 年 中 ，AltaVista 是 搜索 引擎 的 王 
者 。 当 时 我 还 是 一 名 计算 机 科学 研究 生 ， 我 清楚 地 记得 目 己 惊叹 于 
Altavista 搜 索 结 果 的 成 束 度 。 有 史 以 来 第 一 次 ， 有 一 个 搜索 引擎 能 完 


全 索引 互联 网 上 每 一 个 页 面 的 全 部 文本 。 更 可 贵 的 是 ， 肥 上 腿 间 丈 能 返 
回 结 采 。 要 继续 理解 这 个 令 人 回味 的 技术 突破 ， 我 们 要 从 接触 一 个 古 
老 的 ( 毫 不 奔 张 ， 概念 一 一 索引 一 一 开始 。 


上 二老 的 雪 | 


索引 的 概念 十 所 有 搜索 引 敬 背后 最 基础 的 思想 。 但 索引 并 非 由 搜 
索引 擎 发 明 : 事实 上 ， 索 引 的 思想 几乎 和 书写 本 里 一 样 古老 。 比 如 ， 
人 类 学 家 发 现 了 一 座 具 有 五 千年 历史 的 巴比伦 神 庙 图 书馆 ， 里 面 按 学 
科 对 攀 形 文字 泥 版 进行 了 分 类 。 因 此 ， 索 引 可 以 称 得 上 有 十 计算 机 科学 
中 最 古老 的 有 用 思想 。 


如 今 , “索引 ”这 个 词 通常 指 参考 书 最 后 的 一 个 板块 。 你 可 能 想 要 
查看 的 所 有 概念 都 以 固定 顺序 〈 通 常 是 按 字母 排序 ) 列 出 ， 每 一 个 概 
念 下 都 列 出 了 这 个 概念 出 现 的 位 置 (通常 是 页 码 ) 。 因 此 ， 一 本 和 动 
物 有 关 的 书 也 许 会 有 一 个 像 *cheetah 124，156” 的 索引 项 。 这 个 索引 项 
意味 着 “cheetah”(〈 猪 鹏 ) 这 个 词 在 第 124 页 和 第 156 页 出 现 过 。 (让 你 
做 个 相当 有 趣 的 练习 ， 你 可 以 在 本 书 的 索引 中 查询 “index” 这 个 词 。 你 
应 该 可 以 找到 这 一 页 。) 


1 猫 蹲 在 垫子 上 站 狗 站 在 垫子 上 3 | 。” 猫 站 起 ， 狗 足下 


一 个 假想 的 万 维 网 ， 由 编号 为 1、2 和 3 的 三 个 页 面 组 成 。 


EE 
页 码 表示 的 简单 索引 。 


> 


互联 网 搜索 引擎 的 索引 和 一 本 书 的 索引 有 着 相同 的 工作 原理 。 
书 “ 页 ?现在 成 了 万 维 网 上 的 网 页 ， 而 搜索 引擎 则 给 互联 网 上 的 每 个 网 
页 分 配 了 一 个 不 同 的 页 码 。 (是 的 ， 互 联网 上 虽然 有 很 多 网 页 一 一 最 
新 的 数据 显示 有 成 百 上 千 亿 个 一 一 但 计算 机 很 擅长 处 理 大 数字 。) 上 
图 给 出 了 一 个 会 让 整个 过 程 更 具体 的 例子 。 想 象 万 维 网 只 由 上 面 显示 
的 3 个 短 网 页 组 成 ， 它 们 分 别 分 配 到 了 页 码 1、2 和 3。 


计算 机 可 以 为 这 三 个 网 页 创建 一 个 索引 : 首先 要 为 出 现在 任 一 页 
面 上 的 所 有 单词 创建 一 个 列表 ， 然 后 按 字 母 表 顺序 整理 这 张 列 表 。 我 
们 可 以 将 结果 称 为 单词 表 (word list) 一 一 在 这 个 例子 中 是 “a、cat、 
dog、mat、on、sat、stood、the、while”。 然后 计算 机 会 一 个 单词 一 个 
单词 地 搜 轴 所 有 页 面 。 计 算 机 会 标注 每 个 单词 所 在 的 页 码 ， 然 后 再 标 
注 单词 表 中 下 一 个 单词 的 位 置 。 最 终结 果 显 示 在 上 图 中 。 比 如 ， 你 可 
以 立即 看 到 单词 “cat* 出 现在 第 1 页 和 第 3 页 ， 却 不 在 第 2 页 。 而 单 
词 “while” 只 出 现在 第 3 页 。 


通过 这 种 位 单方 法， 搜索 引擎 束 已 经 能 回答 许多 简单 的 查询 。 比 
如 ， 假 设 你 输入 查询 词 “cat"， 搜 索引 擎 能 很 快 跳 转 到 单词 表 中 
的 “cat" 项 。 《因为 字母 表 是 按 字母 排序 的 ， 计 算 机 能 很 快 找到 任何 
项 ， 就 像 我 们 可 以 很 快 找到 词典 中 的 一 个 单词 一 样 。) 一 旦 计算 机 找 
到 “cat* 项 ， 搜 索引 警 束 能 给 出 该 项 的 页 面 列表 一 一 在 这 个 例子 中 整 是 
第 1 页 和 第 3 页 。 现 代 搜 索引 擎 对 结果 的 组 织 很 合理 ， 只 搞 取 了 返回 页 
面 的 少许 片段 ， 不 过 ， 我 们 基本 上 会 忽略 这 样 的 细节 ， 将 精力 集中 在 
搜索 引擎 如 何 知 道 页 面 “符合 ”用户 输 入 的 查询 上 。 


再 举 男 一 个 非常 简单 的 例子 ， 让 我 们 来 检查 一 下 查询 “dog” 的 步 
又 。 在 这 个 例子 中 ， 搜 索引 擎 很 快 会 找到 “dog” 项 ， 并 返回 页 码 2 和 3。 
如 果 查 询 多 个 单词 ， 如 “cat dog” 呢 ? 这 表示 你 正在 寻找 同时 包含 单 
词 “cat* 和 “dog” 的 页 面 。 通 过 已 有 的 索引 ， 搜 索引 警 也 能 很 容易 查 到 结 
果 。 搜 索引 警 首 先 会 单独 查找 这 两 个 单词 ， 找 出 它们 分 别 在 哪些 页 面 
中 。 结 果 是 “cat” 在 第 1 页 和 第 3 页 , “dog” 在 第 2 页 和 第 3 页 。 之 后 ， 计 算 
机 能 快速 扫描 这 两 个 命中 列表 ， 寻 找 同 时 出 现在 两 个 列表 中 的 页 码 。 
在 这 个 例子 中 ， 第 1 页 和 第 2 页 被 排除 了 ， 但 第 3 页 同时 出 现在 两 个 列表 
中 ， 因 此 最 终 答 案 就 是 第 3 页 上 的 一 次 单独 命中 。 与 之 极其 相似 的 一 个 
策略 也 适用 于 超过 两 个 单词 的 查询 。 比 如 ， 查 询 “cat the sat”* 会 返回 第 1 
页 和 第 3 页 为 命中 ， 因 为 它们 是 “cat” (1, 3) 、“the”(1，2，3) 
和 “sat”(1，3) 这 个 列表 的 通用 元 素 。 


就 目前 来 看 ， 搭 建 一 个 搜索 引擎 听 起 来 相当 容易 。 最 简单 的 索引 
技术 似乎 运行 得 很 好 ， 即 便 对 多 词 查询 也 是 如 此 。 不 幸 的 是 ， 这 种 简 
单方 法 完全 不 能 满足 现代 搜索 引擎 的 需要 。 出 现 这 种 情况 的 原因 有 几 
个 ， 不 过 现在 我 们 只 会 关注 其 中 之 一 :如 何 做 短语 查询 。 短 语 查询 是 
指导 找 一 个 确切 短语 的 查询 ， 而 非 凑 巧 一 些 单词 出 现在 页 面 中 的 某 些 
地 方 。 比 如 ，“cat sat” 查 询 和 cat sat 查 询 的 意义 截然 不 同 。(EB)icat sat 查 
询 寻 找 的 是 在 任何 位 置 包含 “cat* 和 *sat* 两 个 单词 的 页 面 ， 不 考虑 顺 
序 ， 而 “cat sat" 查 询 寻 找 的 是 包含 单词 cat" 之 后 紧 跟 单词 sat* 的 页 面 。 
在 上 面 那个 由 三 个 网 页 组 成 的 简单 例子 中 ，cat sat 查 询 结果 命中 第 1 页 
和 第 3 页 ， 但 “cat sat" 查 询 只 返回 一 次 命中 ， 束 在 第 1 页 。 


一 个 搜索 引擎 如 何 才能 有 效 地 进行 一 次 短语 查询 呢 ? 继续 说 “cat 
sat" 这 个 例子 。 第 一 步 和 平常 的 多 词 查询 cat sat 一 样 ， 从 单词 表 中 获取 
每 个 单词 出 现 的 网 页 列表 ， 在 这 个 例子 中 就 是 出 现在 第 1 页 和 第 3 页 
的 “cat”; “sat" 也 一 样 ， 出 现在 第 1 页 和 第 3 页 。 不 过 搜索 引擎 到 这 里 束 
卡 住 了 。 搜 索引 擎 很 确切 地 知道 两 个 单词 同时 出 现在 页 面 1 和 页 面 3 
上 ， 但 没有 办 法 来 分 辨 这 些 单词 是 否 以 正确 的 顺序 紧 挨 着 彼此 出 现 。 


你 也 许 会 想 ， 搜 索引 擎 可 以 返回 查看 原 网 页 ， 看 这 个 短语 是 否 人 存在 。 
这 的 确 是 个 可 能 的 解决 方案 ， 但 效率 却 非 常 非常 低 。 这 需要 授 历 每 一 
个 可 能 包含 这 个 短语 的 网 页 的 全 部 内 容 ， 而 且 可 能 有 海量 这 样 的 网 
页 。 记 住 ， 我 们 在 这 里 打交道 的 是 一 个 只 由 三 个 页 面 组 成 的 极 小 的 例 
子 ， 真 正 的 搜索 引擎 必须 从 数 百 亿 个 网 页 中 找 出 正确 的 结果 。 


由 词 位 置 把 戏 


这 一 问题 的 解决 方案 是 让 现代 搜索 引擎 运行 展 好 的 首 个 、 真 正 精 
巧 的 思想 : 索引 应 该 不 单单 存储 页 码 ， 还 要 存储 页 面 内 的 位 置 。 这 些 
位 置 并 不 神秘 : 它们 只 是 代表 了 一 个 词 在 页 面 中 的 位 置 。 第 3 个 词 的 位 
置 是 3， 第 29 个 词 的 位 置 是 29， 依 此 类 推 。 例 子 中 三 个 页 面 组 成 的 数据 
集 如 下 页 图 所 示 ， 还 加 上 了 词 位 置 。 图 下 面 的 是 索引 由 存储 页 码 
和 词 位 置 中 得 出 的 结果 组 成 。 我 们 称 这 种 创建 索引 的 方法 为 “ 词 位 置 把 
戏 ”(word location trick) 。 举 几 个 例子 ， 以 确保 大 家 理解 了 词 位 置 把 
戏 。 索 引 的 第 一 行 是 “a3-5.”。 这 意味 着 词 “a”* 只 在 数据 集中 出 现 过 一 
次 ， 是 第 3 页 的 第 5 个 单词 。 索 引 中 最 长 的 一 行 是 “the 1-1 1-5 2-1 2-5 3- 
1”。 这 一 行 可 以 让 你 知道 ， 这 个 数据 集中 所 有 出 现 单 词 “the” 的 具体 位 
置 。 它 在 第 1 页 出 现 过 两 次 (位 置 1 和 5) ， 第 2 页 出 现 过 两 次 (位 置 1 和 
5) ， 第 3 页 出 现 过 1 次 (位 置 1) 。 


你 还 记得 介绍 页 内 词 位 置 的 目的 吗 ? 是 为 了 解决 如 何 有 效 地 进行 
短语 查询 这 个 问题 。 让 我 们 来 看 看 如 何 用 这 个 新 索引 做 一 次 短语 查 
询 。 还 是 和 前 面 一 样 ， 查 询 短 语 “cat sat”。 人 第 一 步 和 使 用 旧 索 引 时 一 
样 : 从 索引 中 提取 单个 词 的 位 置 ，“cat” 的 位 置 是 1-2、3-2,， “sat” 的 位 
置 是 1-3、3-7。 到 这 里 还 好 : 我 们 知道 短语 查询 "cat sat” 唯 一 可 能 的 命 
中 就 是 在 第 1 页 和 第 3 页 。 但 与 之 前 一 样 ， 我 们 还 不 确定 相同 的 短语 是 
人 否 出 现在 了 这 些 页 面 中 一 一 有 可 能 这 两 个 单词 的 确 出 现 了 ， 但 并 不 是 
以 正确 的 顺序 彼此 相 邻 。 骏 运 的 是 ， 从 位 置信 息 中 确认 这 一 点 很 容 


易 。 首 移 从 第 1 页 开始 。 根 据 索 引信 息 ， 我 们 知道 “cat" 出 现在 第 1 页 的 
位 置 2 (这 就 是 1-2 的 含义 ) 。 我 们 还 知道 “sat* 出 现在 第 1 页 的 位 置 3 
(这 是 1-3 的 含义 ) 。 但 如 果 “cat”* 在 位 置 2，“sat” 在 位 置 3， 我 们 就 知 


道 “sat”* 紧 挨 着 出 现在 “cat* 之 后 (因为 2 之 后 立即 就 是 3) 一 一 因此 我 们 
0 ‘cat es: 0 并 从 位 置 2 开 如 。 


a 3-5 

cat 1-2 3-2 

dog 2-2 3-6 

mat 1-6 2-6 

on 1-4 2-4 

sat 1-3 3-7 

stood 2-3 3-3 

the 1-1 1-5 2-1 2-5 3-1 
while 3-4 


底 图 : 同时 包含 页 码 和 页 内 词 位 置 的 新 索引 。 
i 图 :3 个 网 页 加 上 了 页 内 词 位 置 。 


= 四 


我 知道 自己 在 这 点 上 谈 得 很 多 ， 但 巨细 无 遗 、 从 头 至 尾 地 研究 这 
hk 是 为 了 让 读者 真正 地 理解 为 了 获得 答案 究竟 使 用 了 哪些 信 
。 注意 ， 我 们 已 经 为 短语 “cat sat" 找 到 了 一 次 命中 ， 仅 仅 是 通过 查看 
4ecatp 的 位 置 1-2、3-2, “sat” 的 位 置 1-3、3-7) ， 而 非 原始 网 
页 。 这 很 关键 ， 因为 我 们 只 需 查 看 索引 中 的 两 个 项 ， 而 非 遍历 所 有 可 
能 包含 命中 的 页 面 一 一 而 在 进行 真正 短语 查询 的 真正 的 搜索 引擎 中 ， 
可 能 有 数 百 万 个 这 样 的 页 面 。 通过 在 索引 中 加 入 页 内 词 位 置 ， 
我 们 只 需 通过 查看 索引 中 的 几 行 ， 就 能 找到 一 次 短语 查询 命中 ， 而 非 
遍历 海量 页 面 。 这 个 简单 的 词 位 置 把 戏 是 让 搜索 引擎 奏效 的 关键 之 


事实 上 ， 我 还 没 讲 完 “cat sat” 这 个 例子 。 我 们 完成 了 对 第 1 页 信息 
的 处 理 ， 但 第 3 页 还 没 处 理 。 对 第 3 页 的 推理 和 第 1 页 的 处 理 方式 很 相 
似 : “cat”* 出 现在 第 3 页 的 位 置 2，“sat* 出 现在 位 置 7， 因 此 它们 不 可 能 相 
邻 一 一 因为 紧 跟 2 之 后 出 现 的 不 是 7。 这 样 我 们 就 知道 ， 第 3 页 并 不 是 短 


语 查 询 “cat sat”* 的 命中 ， 尺 管 它 是 多 词 查 询 cat sat 的 命中 。 


顺便 说 一 下 ， 词 位 置 把 戏 不 仅仅 对 短语 查询 重要 。 举 个 例子 ， 思 
考 一 下 寻找 相 邻 单词 的 问题 。 在 一 些 搜索 引擎 中 ， 用 户 可 以 在 查询 中 
使 用 *NEAR” 天 键 词 做 到 这 一 点 。 事 实 上 ，AltaVista 搜 索引 擎 在 早期 吏 
提供 了 这 一 功能 ， 在 本 书写 作 时 仍然 提供 。 作 为 一 个 特殊 的 例子 ， 假 
设 在 一 些 特别 的 搜索 引 敬 中， 查询 cat NEAR dog 会 找到 “dog” 前 后 五 个 
位 置 之 内 出 现 “cat* 的 页 面 。 我 们 如 何 才 能 在 数据 集中 有 效 地 执行 这 种 
查询 ? 使 用 词 位 置 ， 会 使 查询 变 得 很 容易 。“cat” 的 索引 项 是 1-2、3- 
2， 而 “dog” 的 索引 项 是 2-2、3-6。 可 以 立刻 看 出 ， 第 3 页 是 唯一 可 能 的 
命中 。 而 在 第 3 页 , “cat” 出 现在 位 置 2, “dog” 出 现在 位 置 6。 因 此 这 两 
个 词 之 则 的 距离 是 6 一 2， 结 果 是 4°。 因此 ，“cat* 的 确 出 现在 “dog” 前 后 
五 个 位 置 之 内 ， 而 第 3 页 则 是 查询 cat NEAR dog 的 命中 。 和 前 面 一 样 ， 
请 注意 这 次 查询 的 执行 是 多 么 高 效 : 无 须 遍 历任 何 网 页 的 实际 内 容 
一 一 相反 ， 只 参考 了 索引 中 的 两 个 项 。 


不 过 ， 在 实际 中 ，NEAR 碍 询 对 搜索 引擎 用 户 并 不 非常 重要 。 几 
乎 没 人 使 用 NEAR 碍 询 ， 绝 大 多 数 主要 搜索 引擎 甚至 不 文 持 它们 。 尽 
管 如 此 ， 能 执行 NEAR 查 询 的 能 力 实际 上 对 现实 中 的 搜索 引擎 至 天 重 
要 。 这 是 因为 搜索 引擎 不 断 地 在 后 台 执 行 NEAR 查 询 。 要 理解 其 中 的 
原因 ， 我 们 首先 不 得 不 研究 现代 搜索 引擎 面临 的 主要 问题 之 一 : 排名 
的 问题 。 


| 排名 和 和 邻 度 


到 目前 为 止 ， 我 们 一 直 专 注 于 匹配 阶段 :为 一 个 给 出 的 查询 高 效 
地 找 出 所 有 命中 的 问题 。 不 过 正如 之 前 强调 的 ， 第 二 个 阶段 “排名 ”对 
于 一 个 高 质量 的 搜索 引擎 是 绝对 必 不 可 少 的 : 这 有 是 挑选 出 前 几 个 命中 
并 展示 给 用 户 的 阶段 。 


让 我 们 更 细致 地 来 检验 排名 的 概念 。 一 个 网 页 的 “排名 ”究竟 取决 
于 什么 ? 真正 的 问题 不 是 “这 个 网 页 和 查询 匹配 吗 *"， 而 是 “这 个 网 页 和 
查询 相关 吗 ”。 计 算 机 科学 家 们 使 用 “相关 度 ” (relevance) 这 个 术语 来 
形容 一 个 结果 网 页 和 某 个 特定 查询 有 多 么 相配 或 多 么 有 用 。 


举 个 具体 的 例子 ， 假 设 你 对 导致 旗 疾 的 原因 感 兴趣 ， 并 在 一 个 搜 
索引 擎 中 输入 查询 malaria cause “导致 疙 疾 ) 。 简 化 考虑 ， 假 设 搜 索引 
擎 对 这 一 查询 只 有 两 个 命中 一 -下 网 显示 的 两 个 网 页 。 现 在 来 看 看 这 
两 个 网 页 。 作 为 人 类 ， 你 很 快 束 知道 第 1 页 和 症 疾 起 因 有 关 ， 而 第 2 页 
似乎 是 对 刚刚 发 生 的 一 些 军 事 行 动 鸭 描述 ， 只 不 过 恰巧 使 用 
了 “cause” 和 “malaria” 这 两 个 词 。 因 此 ， 和 第 2 页 相 比 ， 第 1 页 无 疑 和 查 
询 malaria cause 更 具 相 关 性 。 可 计算 机 不 是 人 ， 让 计算 机 理解 这 两 页 的 
主题 也 很 难 ， 似 乎 不 可 能 让 搜索 引擎 正确 地 对 这 两 个 命中 进行 排名 。 


also 1-19 
cause 1-6 2-2 
malaria 1-8 2-19 


whom 2-15 


顶 图 : 两 个 提 及 症 疾 的 样本 网 页 。 
底 图 : 从 上 方 两 个 网 页 中 创建 的 索引 的 一 部 分 。 


不 过 ， 事 实 上 ， 有 一 种 很 简单 的 方法 让 这 个 例子 中 的 排名 正确 。 
查询 词 彼此 相 邻 的 网 页 比 那 些 碍 询 词 相距 很 远 的 网 页 相关 度 更 高 。 在 
闪 疾 这 个 例子 中 ，“malaria” 和 “cause” 在 第 1 页 中 仪 相距 1 个 词 ， 而 在 第 2 
页 中 则 相距 17 个 词 。 ( 记 住 ， 搜 索引 警 只 通过 查看 索引 项 就 能 高 效 地 
发 现 这 一 点 ， 无 须 返 回 查 看 网 页 。) 因此 ， 尺 管 计算 机 并 不 真正 地 “ 理 
解 2 得 询 的 主题 ， 它 也 能 猜测 网 页 1 比 网 页 2 更 具 相 关 性 ， 因 为 网 页 1 得 
询 词 之 间 的 距离 要 比 网 页 2 更 近 。 


总 而 言 之 ， 尽 管 人 们 不 经 常 使 用 NEAR 查 询 ， 搜 索引 擎 也 在 不 断 
地 使 用 和 邻 度 有 关 的 信息 ， 提 高 搜索 排名 。 而 它们 能 高 效 地 做 到 这 点 
的 原因 则 和 是， 它们 使 用 词 位 置 把 戏 。 


一 个 网 页 范例 集 ， 每 个 网 页 都 有 一 个 标题 和 一 段 正文 。 


我 们 已 经 了 解 到 ， 早 在 距 今 5 000 年 以 前 ， 巴 比 伦 人 就 开始 使 用 索 
引 。 而 词 定 位 把 戏 也 不 是 由 搜索 引 警 发明 的 : 这 是 互联 网 出 现 以 前 ， 
男 一 种 信息 检索 中 用 到 的 著名 技术 。 不 过 ， 在 下 一 部 分 ， 我 们 将 了 解 
个 看 起 来 的 确 是 由 搜索 引擎 设计 者 发 明 的 新 把 戏 : 元 词 把 戏 
(metaword trick) 。 对 这 一 把 戏 和 众多 相关 思想 的 精巧 运用 ， 使 
AltaVista 搜 索引 警 在 20 世 纪 90 年 代 晚 期 迅速 成 为 搜索 行业 的 领头 羊 。 


| 元 词 把 戏 


到 目前 为 止 ， 我 们 一 直 都 在 使 用 极其 简单 的 网 页 示例 。 然 而 ， 绝 
大 多 数 网 页 拥有 众多 结构 ， 包 括 标题 、 标 涉 、 链 接 和 图 片 ， 可 我 们 还 
一 直 认 为 网 页 只 古 普通 的 词 表 。 接 下 来 ， 我 们 将 探索 搜索 引擎 如 何 处 
理 网 页 中 的 结构 。 不 过 ， 为 了 尽 可 能 保持 人 简单， 我 们 只 会 引入 一 层 结 
构 : 网 页 的 顶部 会 有 一 个 标题 ， 之 后 是 页 面 的 正文 。 上 图 显示 了 我 们 
熟悉 的 三 页 示例 ， 并 附加 了 一 些 标题 。 


实际 上 ， 要 像 搜索 引擎 一 样 分 析 网 页 结构 ， 我 们 需要 了 解 更 多 编 
写 网 页 的 知识 。 网 页 是 由 一 种 特殊 语言 编写 的 ， 以 便 网 络 浏览 锅 能 
很 好 的 格式 展示 它们 。 (编写 网 页 最 常用 的 语言 被 称 为 HTML， 不 过 
HTML 的 细节 对 本 次 讨论 不 重要 。) 标 头 、 标 题 、 链 接 、 图 片 等 格式 
化 结构 是 用 被 称 为 元 词 的 特殊 单词 编写 的 。 比 如 ， 网 页 标题 开始 使 用 
的 元 词 也 许 是 <titleStart>， 而 结束 这 个 标题 的 元 词 可 能 是 <tileEnd>。 
类 似 的 ， 网 页 正文 可 能 是 以 <bodyStart> 开 始 ， 以 <bodyEnd> 结 束 。 不 
要 纠结 于 “<”`“>” 这 些 符 号 。 它 们 出 现在 绝 大 多 数 计算 机 键盘 上 ， 人 
们 通常 只 知道 这 些 符号 的 数学 意义 是 “大 于 ”和 “小 于 ”。 不 过 在 这 里 ， 
这 些 符 号 和 数学 没有 任何 关系 ， 只 是 方便 的 象征 ， 将 这 些 元 词 和 网 页 
中 的 正常 单词 区 分 开 来 。 


和 上 图 一 样 的 网 页 集 ， 但 展示 的 是 用 元 词 编写 的 情况 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 


看 一 下 上 面 的 图 。 这 张 图 展示 的 内 容 和 前 一 张 图 一 样 ， 但 显示 的 
是 实际 编写 网 页 的 样子 ， 而 非 在 网 络 浏览 器 中 显示 的 样子 。 绝 大 多 数 
网 络 浏览 器 都 能 让 用 户 检 验 网 页 的 原始 内 容 ， 这 需要 选择 名 为 “查看 网 
页 源 代码 ”的 菜单 选项 一 我 建议 你 下 次 有 机 会 试验 一 下 。 (注意 ,在 
这 里 使 用 的 元 词 ， 如 <titleStart> 和 <titleEnd> 是 帮助 你 理解 的 虚构 的 、 
易于 辨认 的 示例 。 在 真实 的 HTML 中， 元 词 被 称 作 标签 (tag) 
HTML 中 开启 和 结束 标题 的 标签 是 <title> 和 </title> 一 一 你 可 以 在 使 
用 “得 看 网 页 源 代码 ”的 菜单 选项 后 搜索 这 些 标签 。) 


在 创建 一 份 索引 时 ， 赛 括 所 有 元 词 是 件 很 简单 的 事 。 无 须 新 把 
戏 : 你 只 要 像 存 储 正 常 单词 一 样 存储 元 词 位 置 束 行 。 下 页 的 图 显示 了 
从 带 有 元 词 的 三 个 网 页 中 创建 的 索引 。 看 一 下 这 张 图 ， 确 保 自 己 理解 
了 其 中 所 有 的 奥秘 。 比 如 ，“mat” 的 项 是 1-11、2-11， 表 示 “mat”* 是 第 1 
页 的 第 11 个 词 ， 也 是 第 2 页 的 第 1 个 词 。 元 词 位 置 的 解读 也 一 
样 ，“<titleEnd>” 的 项 是 1-4、2-4 和 3-4， 也 就 是 说 “<titleEnd>” 是 第 1 
页 、 第 2 页 和 第 3 页 的 第 4 个 词 。 


我 们 称 这 种 和 索引 普通 单词 一 样 索 引 元 词 的 简单 把 戏 为 “元 词 把 
戏 ”。 这 个 把 戏 也 许 看 起 来 简单 得 可 笑 ， 但 元 词 把 戏 在 让 搜索 引擎 执行 
精确 搜索 和 高 质量 排名 上 扮演 了 至 关 重 要 的 角色 。 举 个 简单 例子 证 
明 。 假 设 在 某 个 时 候 ， 有 个 搜索 引擎 文 持 使 用 IN 关键 词 的 特殊 查询 ， 
因此 像 boat IN TITLE 这 样 的 查询 只 会 返回 在 网 页 标题 中 包含 了 单 
词 “boat* 的 网 页 ， 而 查询 giraffe IN BODY 则 会 找到 在 正文 中 包 
含 “giraffe”( 长 贷 谭 ) 的 网 页 。 请 注意 ， 绝 大 多 数 搜索 引擎 并 不 完全 按 


照 这 种 方法 提供 IN 查询 ， 但 一 些 搜索 引擎 可 以 通过 让 你 点 击 “ 高 级 搜 
索 ” 光 项 ， 详 细 说 明 查 询 词 必须 出 现 


a 3-10 

cat 1-3 1-7 3-7 
dog 2-3 2-7 3-11 
mat 1-11 2-11 

my 1-2 2-2 3-2 
on 1-9 2-9 

pets 3-3 

sat 1-8 3-12 

stood 2-8 3-8 

the 1-6 1-10 2-6 2-10 3-6 
while 3-9 

<bodyEnd> 1-12 2-12 3-13 
<bodyStart> 1-5 2-5 3-5 
<titleEnd> 1-4 2-4 3-4 


<titleStart> 1-1 2-1 3-1 
上 一 张 图 中 的 网 页 《包括 元 词 的 索引 


六 一 一 一 一 一 一 一 


<titleStart> : 1-1 aa 9 


Fr---==| 


<titleEnd> : 1-4 (2-6 :3-4 


搜索 引擎 如 何 有 效 地 执行 查询 dog IN TITLE 。 


在 标题 或 一 份 文件 的 特定 位 置 来 实现 同样 的 效果 。 我 们 假定 IN 关 
键 词 存 在 ， 以 便 更 容易 解释 。 事 实 上 ， 在 写作 本 书 时 ， 合 歌 已 经 可 以 
让 用 户 通过 使 用 关键 词 intitle 进 行 标题 搜索 ， 因 此 ， 在 谷歌 中 查询 
intitle:boat， 将 找到 标题 中 带 有 “boat” 的 网 页 。 目 己 试 试 ! 


让 我 们 来 看 看 ， 在 上 面 两 张 图 中 由 三 个 网 页 组 成 的 示例 里 。 


首先 ， 搜 索引 擎 提取 “dog” 的 索引 项 ， 也 就 是 2-3、2-7 和 3-11。 然 
后 (这 可 能 有 点 出 人 意料 ， 但 请 忍耐 片刻 ) 搜索 引擎 会 同时 提取 
<titleStart> 和 <titleEnd> 的 索引 项 。 


<titleStart> 的 索引 项 是 1-1、2-1 和 3-1，<titleEnd> 的 索引 项 是 1-4、 
2-4 和 3-4。 这 些 提 取信 息 全 部 显示 在 上 图 中 ， 你 可 以 忽略 那些 圈 和 
框 。 


之 后 ， 搜 索引 擎 开始 扫描 “dog” 的 索引 项 ， 检 查 其 命中 ， 看 是 否 有 
哪个 命中 发 生 在 标题 内 。“dog” 的 第 一 个 命中 是 圈 起 来 的 项 2-3， 代 表 
其 是 第 2 页 的 第 3 个 词 。 通 过 一 并 扫描 <titleStart> 的 项 ， 搜 索引 擎 就 能 
知道 第 2 页 的 标题 从 哪 开始 一 一 即 索 引 项 的 第 一 个 数 子 要 以 “2-” 开 始 ， 
也 就 是 修 圈 的 项 2-1， 即 第 2 页 的 标题 从 第 1 个 单词 处 开始 。 同 样 的 ， 搜 
索引 擎 能 知道 第 2 页 的 标题 在 哪 结束 。 搜 索引 擎 只 要 扫描 索 引 项 中 的 
<titleEnd> ， 寻 找 以 “2-” 开 始 的 索引 项 数字 ， 在 这 个 例子 中 天 是 停 止 在 
被 圈 的 项 2-4 处 。 因 此 第 2 页 的 标题 在 第 4 个 词 处 结束 。 


我 们 目前 已 知 的 所 有 东西 都 被 图 中 圈 住 的 项 总 结 了 。 它 们 告诉 我 
们 第 2 页 的 标题 从 第 1 个 词 开 始 ， 到 第 4 个 词 结束 ， 而 “dog” 这 个 词 是 第 3 
个 词 。 最 后 一 步 很 简单 :因为 3 大 于 1， 小 于 4， 我 们 肯定 “dog” 的 这 次 
命中 确实 出 现在 一 个 标题 中 ， 因 此 第 2 页 应 该 是 查询 dog IN TITLE 的 命 
中 o 


现在 搜索 引擎 可 以 转向 寻找 “dog” 的 第 二 个 命中 ， 也 就 是 2-7 (第 2 
页 的 第 7 个 词 ) ， 但 因为 我 们 已 经 知道 第 2 页 是 命中 ， 因 此 可 以 忽略 2-7 
这 个 项 ， 转 向 下 一 个 命中 3-11 (由 一 个 框 标记 ) 。 这 表示 “dog” 是 第 3 
页 第 11 个 词 。 于 是 我 们 开始 跳 过 被 圈 住 的 <titleStart> 和 <titleEnd> 项 ， 
寻找 以 “3-” 开 始 的 项 。 (有 一 点 需要 重点 注意 ， 我 们 不 必 回 到 每 行 的 
开始 ， 而 是 可 以 从 之 前 扫描 命中 的 地 方 重新 开始 。) 在 这 个 简单 例子 
中 ， 以 “3-” 开 始 的 项 恰好 彼此 相 邻 <titleStart> 是 3-1，<titleEnd> 是 
3-4。 为 便于 参考 ， 这 两 个 数字 都 用 框 赎 了 起 来 。 接 下 来 ， 我 们 又 面临 
判定 “dog” 在 3-11 的 命中 是 否 位 于 标题 内 的 问题 。 框 内 信息 告诉 我 们 ， 
它们 都 是 在 第 三 页 ，“dog” 是 第 11 个 词 ， 而 标题 从 第 1 个 词 开 始 ， 到 第 4 
个 词 结束 。 因 为 11 大 于 4， 所 以 “dog” 的 这 次 命中 出 现在 标题 之 后 ， 也 
束 是 不 在 标题 内 。 网 页 3 并 不 是 查询 dog IN TITLE 的 命中 。 


元 词 把 戏 能 让 搜索 引擎 以 极端 高 效 的 方式 回应 有 天 一 个 文件 结构 
的 得 询 。 上 面 的 例 和 于 只 征 搜 索 页 面 标题 内 ， 但 类 似 的 技术 能 让 用 户 搜 
索 超 链接 、 图 片 描述 和 网 页 其 他 有 用 部 分 内 的 词 。 而 且 所 有 这 类 得 询 
都 可 以 像 上 面 的 例子 一 样 得 到 高 效 回应 。 正 如 我 们 之 前 讨论 过 的 得 
询 ， 搜 索引 获 无 须 返 回 查 看 原始 网 页 ， 搜索 引擎 只 需 碍 阅 小 部 分 索引 
项 ， 就 能 回应 查询 。 同 样 重要 的 是 ， 搜 索引 擎 只 需 裔 历 每 个 索引 项 一 
次 。 还 记得 我 们 在 完成 处 理 第 2 页 的 首 个 命中 后 ， 转 向 第 3 页 的 可 能 命 
中 时 发 生 了 什么 吗 ? 搜索 引擎 并 没有 返回 索引 项 <titleStart> 和 
<titleEnd> 的 开端 ， 而 是 从 之 前 离开 的 地 方 继续 进行 扫描 。 这 也 是 让 IN 
查询 高 效 的 关键 因素 。 


标题 查询 和 其 他 取决 于 网 页 结构 的 “结构 查询 类似 于 之 前 讨论 的 
NEAR 查 询 ， 虽 然 人 们 极 少 执行 结构 查询 ， 但 搜索 引擎 无 时 无 刻 不 在 
内 部 使 用 它们 。 原 因 之 前 提 过 : 搜索 引擎 的 生死 由 其 排名 的 质量 决 
定 ， 而 通过 利用 网 页 结构 ， 排 名 质量 能 够 得 到 大 幅 提升 。 比 如 ， 标 题 
中 有 “dog” 的 网 页 包含 与 狗 有 关 信 息 的 可 能 性 ， 要 比 在 网 页 正文 中 所 
及 “dog” 的 网 页 大 得 多 。 因 此 ， 当 一 名 用 户 输入 简单 的 查询 dog， 搜 索 


能 在 内 部 执行 一 个 dog IN TITLE 查 询 (即便 用 户 并 未 详细 地 要 求 
点 ) ， 以 寻找 最 有 可 能 与 狗 有 关 的 网 页 ， 而 非 只 是 恰好 提 到 狗 的 


引擎 
Ds 


0 


索引 和 匹配 把 戏 并 非 息 全 部 内 容 


搭建 一 个 搜索 引擎 并 不 是 一 件 容 易 的 事情 。 最 终 成 品 承 像 一 个 巨 
大 的 复杂 机 器 ， 帝 有 许多 不 同 的 轮子 、 发 动机 和 杠杆 。 这 些 厂 置 都 必 
须 安 闭 正 确 ， 系 统 才能 有 用 。 因 此 ， 单 靠 在 本 章 中 出 现 的 两 个 把 戏 并 
不 能 解决 创建 一 个 高 效 搜索 引擎 索引 的 问题 ， 意 识 到 这 一 点 很 重要 。 
不 过 ， 词 位 置 把 戏 和 元 词 把 戏 无 疑 展现 了 真正 的 搜索 引擎 构建 和 使 用 
索引 的 “风味 ”。 


元 词 把 戏 的 确 帮 助 过 AltaVista 一 一 其 他 搜索 引 苟 成 

功 地 在 整个 互联 网 中 寻找 有 效 匹 配 。 ,我们 之 所 以 知道 这 一 “， 是 因为 
AltaVista 在 1999 年 递交 的 美国 专利 文件 《索引 的 限 搜索 》 

(Constrained Searching of an Index) 中 描述 了 元 词 把 戏 。 不 过 ， 
AltaVvista 超 级 精巧 的 匹配 算法 并 不 足以 让 其 从 搜索 行业 波涛 测 育 的 早 
ee 。 正如 我 们 已 经 知道 的 ， 有 效 匹 配 只 是 一 个 高 效 搜索 引擎 
的 一 半 ， 另 一 大 挑战 是 对 匹配 网 页 进行 排名 。 正 如 我 们 将 在 下 一 章 中 
看 到 的 ， 一 种 新 排名 算法 的 出 现 足 以 让 AltaVista 相 形 见 红 ， 并 让 谷歌 
一 跃进 入 网 络 搜索 世 界 的 最 前 治 。 


1. 注意 英文 单词 的 双 引 号 。 一 一 译 者 注 


让 谷歌 腾飞 的 拉 术 


第 二 草 ”PageRank 


《星际 迷航 》 (Star Trek) 中 的 计算 机 并 不 
特别 让 人 感 兴趣 。 他 们 向 计算 机 提问 题 ， 计 
算 机 还 要 想 一 会 儿 。 我 觉得 我 们 能 做 得 更 


拉 里 - 佩 奇 (谷歌 联合 创始 人 ) 


从 建筑 学 的 角度 来 说 ， 车 库 基本 上 是 个 简陋 的 地 方 。 但 在 硅 合 ， 
车 库 有 一 种 特殊 的 创业 含义 : 许多 伟大 的 人 硅谷 技术 公司 在 此 诞生 或 至 
少 从 和 车库 中 孵化 而 来 。 这 一 趋势 并 非 从 20 世 纪 90 年 代 的 互联 网 泡沫 开 
始 。 在 互联 网 泡沫 出 现 的 50 多 年 前 ， 也 就 是 1939 年 ， 当 世界 经 济 仍 末 
从 大 萧条 的 影响 中 走出 来 时 ， 惠 普 (Hewlett-Packard) 就 在 加 利 福 尼 
亚 州 帕 洛 阿尔 托 (Palo Alto) 戴 夫 : 休 利 特 (Dave Hewlett) 的 车 库 中 
逐渐 成 形 了 。 几 十 年 之 后 ， 史 蒂 夫 .乔布斯 (Steve Jobs) 和 史 蒂 夫 . 沃 
效 尼 亚 克 (Steve Wozniak) 于 1976 年 在 加 利 福 尼 亚 州 洛斯 拉 图 斯 乔 布 
斯 的 车 库 中 创业 ， 之 后 创建 了 今天 传奇 的 苹果 计算 机 公司 。 (尽管 传 
说 苹果 公司 创办 于 车 库 ， 乔 布 斯 和 沃 北 尼 亚 元 一 开始 其 实 是 从 一 间 卧 
室 开始 的 。 空 间 很 快 就 不 够 用 了 ， 于 是 他 们 转移 到 了 车 库 。) 不 过 ， 
和 惠普 和 芋 果 的 成 功 故事 相 比 ， 一 个 名 为 谷歌 的 搜索 引擎 的 创办 过 程 
更 令 人 惊叹 。 合 歌 从 加 利 福 尼 亚 州 门 洛 由 元 市 的 一 间 车 库 开 始 ， 并 于 
1998 年 9 月 注册 成 立 公 司 。 


那 时 ， 合 歌 事实 上 已 经 运营 目 己 的 搜索 引 警 一 年 多 了 一 一 最 开始 
苹 在 斯 坦 福 大 学 的 服务 右上， 谷歌 的 两 位 联合 创始 人 都 是 斯 坦 福 博 士 


。 直到 斯 坦 福 大 学 再 也 不 能 承受 这 一 日 益 受 欢迎 的 服务 所 需要 的 市 
， 拉 里 : 佩 奇 和 谢 尔 雷 : 布 林 才 把 公司 转移 到 了 如 今 闭 名 的 | 洛 由 克 车 
° 他们 肯定 做 了 些 正确 的 事 ， 因 为 在 他 们 正式 成 立 公 司 3 个 月 后 ， 关 
《个 人 计算 机 杂志 》 (PC Magazine) 就 宣布 谷歌 是 1998 年 美国 排名 
前 一 百 的 网 站 之 一 。 


这 也 是 我 们 的 故事 真正 开始 的 地 方 ， 在 当年 《个 人 计算 机 杂志 》 
的 评论 中 ， 合 歌 的 精英 管理 层 因 为 谷歌 “以 超 乎 寻常 的 技巧 返回 相关 度 
极 高 的 结果 ”而 获奖 。 你 也 许 还 记得 上 一 章 提 到 过 ， 第 一 个 商业 搜索 引 
擎 于 4 年 前 的 1994 年 发 布 。 还 在 车 库 里 的 谷歌 怎么 能 弥补 4 年 的 巨大 差 
距 ， 在 搜索 质量 上 超越 已 经 很 受 欢 迎 的 Lycos 和 AltaVista 呢 ?这 一 问题 
的 答案 可 不 简单 。 但 最 重要 的 因素 之 一 一 一 尤其 是 在 网 络 搜索 早期 
就 是 谷歌 用 来 对 其 搜索 结 打 进行 排名 的 创新 算法 : 一 个 被 称 为 
PageRank 的 著名 算法 。 


“PageRank” 是 个 双关 词 : 它 既 是 一 种 对 网 页 排名 的 算法 ， 也 是 其 
主要 发 明 者 拉 里 . 佩 奇 的 排名 算法 。 佩 奇 和 布 林 在 1998 年 的 一 篇 学 术 会 
议论 文 《 解 析 大 规模 超 文 本 网 络 搜索 引擎 》 (the Anatomy of a Large- 
Scale Hypertextual Web Search Engine) 中 发 表 了 这 一 算法 。 正 如 论文 
标题 所 上 暗示 的 ， 这 篇 论文 的 内 容 不 止 是 描述 PageRank。 事 实 上 ， 这 是 
对 1998 年 存在 的 谷歌 系统 的 完整 描述 。 但 藏 在 这 一 系统 技术 细节 中 
的 ， 是 对 也 许 是 21 世 纪 出 现 的 第 一 个 算法 瑰宝 的 描述 : PageRank 算 
法 。 在 本 划 ， 我 们 将 探索 这 一 算法 如 何以 及 为 什么 能 在 草 壤 中 寻 针 ， 
并 持续 为 搜索 查询 提供 最 相关 的 结 也 是 排名 最 靠 前 的 命中 。 


| 超 链 接 把 戏 


你 很 有 可 能 已 经 知道 了 超 链 接 是 什么 : 超 链 接 是 网 页 上 的 一 个 短 
语 ， 当 你 点 击 它 时 ， 你 将 被 帝 到 另 一 个 网 页 。 绝 大 多 数 网 络 浏览 套用 


开斋 址 上 由 


HU 


监 色 底线 显示 超 链 授 ， 以 便 能 轻易 识别 。 


令 人 意外 的 是 ， 超 链接 也 是 老 想法 。1945 年 一 一 大 约 在 同时 开始 
开发 电子 计算 机 一 一 美国 工程 师范 内 瓦 :布什 (Vannevar Bush) 发 表 了 
一 篇 极 具 前 上 脆性 的 论文 《 诚 若 所 思 》。 在 这 篇 涉猎 广泛 的 论文 中 ， 布 
什 摘 述 了 大 量 可 能 的 新 技术 ， 包 括 一 台 被 称 作 麦 麦 克 斯 (memex) 的 


ee 。 支 支 克 斯 可 以 存储 文件 并 目 动 进行 索引 ， 但 其 功能 远 不 止 这 
。 麦 麦克 斯 允许 “关联 索引 .…… 任 何 被 选中 的 东西 都 能 立即 目 动 选 择 
一 一 换 名 话说， 一 种 二 期 的 超 链接 。 


“ 伯 特 的 炒 蛋 菜谱 
首先 融 一 小 的 
a \ 


欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒 


但 特 的 菜谱 太 ， 
棒 了 ! 


妙 无 比 ! 
超 链接 把 戏 (the hyperlink trick) 的 原理 。 上 面 显示 了 6 个 网 页 ， 每 个 框 都 代表 1 个 网 页 。 其 中 


2 个 网 页 是 炒 蛋 末 谱 ， 其 余 4 个 网 页 都 有 这 些 亲 谱 的 超 链接 。 超 链接 把 戏 认为 作 特 的 网 页 比 欧 
尼 的 网 页 排名 高 ， 因 为 伯 特 有 三 个 链 入 链接 incoming link) ， 而 欧 尼 的 只 有 一 个 


超 链接 目 1945 年 就 已 出 现 。 它 们 十 搜 索引 警 用 来 进行 排名 最 重要 
的 工具 之 一 ， 而 且 是 谷歌 PageRank 技 术 的 基础 。 接 下 来 ， 我 们 将 开始 
以 最 大 的 热情 探索 PageRank 技 术 。 


理解 PageRank 的 第 一 步 是 一 个 名 为 超 链接 把 戏 的 简单 想法 。 用 一 
个 例子 束 能 非常 容易 地 解释 这 个 把 戏 。 假 设 你 对 学 习 如 何 制作 炒 蛋 感 
兴趣 ， 并 且 用 网 络 搜索 了 这 一 主题 。 如 今 ， 任 何 一 次 真正 搜索 炒 蛋 的 
网 络 搜索 都 会 出 现 数 百 万 个 命中 ， 但 为 方便 起 见 ， 让 我 们 想象 只 有 两 
个 网 页 出 现 ， 其 中 一 个 是 “ 欧 尼 的 炒 蛋 菜谱 ”， 而 男 一 个 则 是 “ 伯 特 的 炒 
蛋 琳 谱 ”。 这 两 个 网 页 都 出 现在 上 图 中 ， 与 之 一 道 的 古 拥 有 这 些 末 谱 超 
链接 的 网 页 。 还 是 为 了 方便 起 见 ， 让 我 们 想象 这 四 个 包含 超 链接 的 网 
页 是 整个 互联 网 上 仪 有 的 链接 到 两 个 菜谱 网 页 之 一 的 网 页 。 图 中 发 部 
画 线 的 文字 束 代 表 超 链接 ， 而 第 头 则 表示 链接 的 指向 。 


问题 是 ， 这 两 个 命中 哪个 排名 应 该 更 高 ? 伯 特 还 是 欧 尼 ? 人 们 在 
阅读 链 向 这 两 份 菜 谱 的 网 页 并 作出 评价 上 不 会 有 太 大 的 问题 。 看 起 来 
这 两 份 菜谱 部 很 合理 ， 但 人 们 对 伯 特 菜谱 的 反 啊 要 更 为 热烈 一 些 。 
此 ， 在 没有 给 出 其 他 信息 的 情况 下 ， 伯 特 的 菜谱 比 欧 尼 的 菜谱 排名 更 


高 可 能 会 更 合理 。 


不 笠 的 是 ， 计 算 机 并 不 擅长 理解 网 页 的 真实 意思 ， 因 此 搜索 引擎 
仿 碍 这 四 个 链 同 命中 的 网 页 ， 并 对 每 份 采 谱 获 推荐 的 强烈 程度 进行 评 
佑 也 不 太 可 能 。 男 外 ， 计 算 机 在 计算 方面 非常 优秀 。 一 种 简单 方法 整 
征 只 计算 链 问 每 份 菜 谱 的 网 页 数 一 盖 在 这 个 例子 中 ， 一 个 网 页 链 同 欧 
尼 的 沫 谱 ， 三 个 网 页 链 向 伯 特 的 沫 谱 一 一 并 根据 这 些 染 谱 的 链 入 链接 
数 对 菜谱 排名 。 当 然 ， 这 种 方法 远 不 如 让 人 阅读 所 有 页 面 并 手动 排名 
精确 ， 但 无 疑 是 一 种 有 用 的 方法 。 如 果 你 没有 其 他 信息 ， 一 个 网 页 的 
链 入 链接 数 可 以 成 为 该 网 页 可 能 会 多 有 用 或 多 有 “权威 性 ”的 指标 。 在 
这 个 例子 中 ， 伯 特 的 菜谱 得 分 为 3， 欧 尼 的 菜谱 得 分 为 1， 因 此 在 搜索 
引擎 癌 用 户 展示 的 结果 中 ， 伯 竺 的 网 页 排名 比 欧 尼 的 高 。 


你 可 能 已 经 发 现 了 一 些 在 排名 上 使 用 这 种 “ 超 链接 把 戏 ” 的 问题 。 
个 很 明显 的 问题 就 是 ， 有 时 候 链 接 和 被 用 来 显示 兰 网 页 ， 而 非 好 网 
页 。 比 如 ， 假 设 有 个 链接 欧 尼 沫 谱 的 网 页 上 写 着 : “我 起 了 下 欧 尼 的 沫 


谐 ， 很 粳 糙 。” 像 这 样 批评 而 非 推荐 一 个 网 页 的 链接 ， 的 确 会 导致 超 链 
接 把 戏 将 网 页 的 排名 拔高 。 不 过 ， 在 现实 中 ， 超 链接 更 多 是 用 于 推荐 
而 非 批 评 。 因此， 尽管 有 这 个 明显 的 缺陷 ， 超 链接 把 戏 仍然 很 有 用 。 


| 权重 把 戏 


你 可 能 已 经 在 想 ， 为 什么 要 对 网 页 的 所 有 和 链 入 链接 一 视 同仁 。 来 
目 专 家 的 推荐 肯定 束 要 比 末 乌 的 推荐 更 有 价值 ? 要 细致 地 理解 这 一 
上 态 ， 我 们 继续 人 研究 上 面 的 炒 蛋 例子 ， 不 过 人 研究 的 是 男 一 组 链 入 链接 。 
下 页 的 图 对 链 入 链接 进行 了 重新 设置 ， 现在 ， 伯 特 和 欧 尼 的 菜谱 的 链 
入 链接 数 相 等 了 (只 有 一 个 ) ， 但 欧 尼 的 链 入 链接 来 自我 的 主页 ， 而 
伯 特 的 则 来 目 于 著名 主 厨 父 利 斯 : 沃 特 斯 。 


如 果 没 有 其 他 信息 ， 你 更 喜欢 哪个 菜谱 ? 很 显然 ， 选 择 由 一 位 车 
名 主 厨 推荐 的 汪 谱 ， 要 比 选 择 由 一 名 计算 机 科学 相 天 书籍 作者 推荐 的 
荣 谱 更 好 。 我 们 称 这 一 基本 原则 为 “权重 把 戏 ”(\the authority trick) : 
来 自 高 “权重 ”网 页 的 链接 排名 要 比 来 目 低 “权重 ”网 页 链接 的 排名 高 。 


欧 尼 的 炒 蛋 菜谱 
加 盐 和 胡椒 ， 在 一 
个 大 碗 里 把 四 个 鸡 


“ 伯 特 的 炒 蛋 菜谱 
首先 融 一 小 勺 
的 黄油 …… 


约翰 - 麦 考 密 克 的 主页 艾 利 斯 沃 特 斯 的 主页 


我 尝试 过 欧 尼 很 显然 伯 特 的 菜 
的 菜谱 一 次 ， 谱 是 最 好 的 炒 蛋 菜 


一 总 都 不 差 。 >: 


权重 把 戏 的 原理 。 这 里 显示 了 四 个 网 页 : 两 个 炒 蛋 菜谱 网 页 和 两 个 链 向 菜谱 的 网 页 。 其 中 一 
个 链接 来 自 于 本 书 作 者 〈 不 是 著名 主 厨 ) ， 而 另 一 个 链接 来 自 著 名 主 厨 艾 利 斯 * 沃 特 斯 的 主 

人 9 特 的 网 页 排 在 欧 尼 的 菜谱 之 前 ， 因 为 伯 特 的 链 入 链接 “权重 ” 比 欧 尼 的 链 入 
固 接 大 。 


IN 
H 


这 个 原则 很 好 ,但 其 实际 形式 对 搜索 引 敬 而 言 一 点 用 都 没有 。 计 
算 机 如 何 才 能 自动 判定 芯 利 斯 : 沃 特 斯 在 炒 蛋 方面 比 我 更 具有 权威 性 
呢 ? 有 个 想法 对 此 也 许 会 有 所 帮助 :让 我 们 把 超 链 接 把 戏 和 权重 把 戏 
结合 起 来 。 所 有 网 页 的 初始 权重 值 (authority score) 都 是 1， 但 如 果 一 
个 网 页 有 链 入 链接 ， 在 计算 该 网 页 权重 时 惑 要 加 入 指 癌 其 的 网 页 的 权 
重 。 世 束 是 说 ， 如 果 X 和 Y 网 页 链 问 Z 网 页 ， 那么 Z 网 页 的 权重 就 是 X 网 
页 和 Y 网 页 权重 相 加 的 值 。 


下 面 的 图 在 计算 这 两 个 炒 蛋 菜谱 网 页 的 权重 值 上 很 详细 。 终 值 显 
示 在 贺 团 中。 图 中 有 两 个 网 页 链 癌 我 的 主页 ， 这 些 网 页 本 里 没有 链 入 
链接 ， 因 此 权重 值 为 1。 我 的 主页 的 权重 值 是 所 有 链 入 链接 权重 值 的 总 
和 ， 相 加 得 2。 艾 利 斯 : 沃 特 斯 的 主页 有 100 个 链 入 链接 ， 每 个 链 入 链接 


的 权重 值 为 1， 因 此 它 的 权重 是 100。 欧 尼 的 菜谱 只 有 一 个 链 入 链接 ， 
但 这 个 链 入 链接 的 权重 值 是 2， 因 此 将 其 所 有 链 入 链接 的 权重 值 相 加 
(这 个 例子 中 只 有 一 个 数 可 加 ) ， 欧 尼 菜 谱 网 页 的 权重 值 为 2。 伯 特 菜 
谱 网 页 也 只 有 一 个 链 入 链接 ， 但 其 权重 值 为 100， 因 此 伯 特 菜谱 网 页 的 
权重 值 为 100。 而 因为 100 大 于 2， 所 以 伯 特 的 网 页 排名 要 比 欧 尼 的 高 。 
欧 尼 的 炒 蛋 菜谱 伯 特 的 炒 蛋 菜谱 ， 

加 盐 和 胡椒 ， 在 一 
个 大 碗 里 把 四 个 交 首先 可 一 ee 


很 显然 ， 伯 特 的 菜 


HE 
并 二 


对 两 个 炒 蛋 菜谱 网 页 “权重 值 ” 的 简单 计算 。 权 重 值 显示 在 圆圈 中 。 


时 机 访问 者 把 戏 


号 目 动 计算 权重 值 来 说 ， 我 们 似乎 拥有 了 一 个 真正 奏效 的 策略 ， 
无 须 计算 机 真正 地 理解 网 页 内 容 。 不 竺 的 是 ， 这 种 方法 有 个 大 问题 。 
超 链接 很 有 可 能 形成 被 计算 机 科学 家 称 为 “循环 ”(cycle) 的 东西 。 循 
环 指 访问 者 可 以 通过 点 击 超 链 接 返回 出 发 时 的 网 页 。 


下 图 就 是 个 例子 。 图 中 有 A、B、C、D、E 五 个 网 页 。 如 果 从 A 开 
始 ， 我 们 可 以 通过 A 访问 B， 然 后 又 从 B 访 问 E， 而 从 E 我 们 又 能 点 回 
A， 也 就 是 回 到 了 出 发 点 。 这 也 意味 着 A、B 和 E 三 个 网 页 组 成 了 一 个 
循环 。 


超 链 接 循环 的 一 个 例子 。 网 页 A、B 和 FE 组 
E， 再 返回 到 A 的 出 发 点 。 


循环 造成 的 问题 。 网 页 A、B 和 E 永 远 需 要 更 新 ， 它 们 的 权重 值 会 一 直 增 加 下 去 。 


看 来 ， 在 直到 循环 时 ， 目 前 “权重 值 ” 的 定义 (将 超 链接 把 戏 和 权 
重 把 戏 结合 起 来 ) 就 碰 到 大 太 烦 了 “。 看 看 在 这 个 特例 中 会 发 生 什 么 事 
情 。 网 页 C 和 DD 没有 链 入 链接 ， 因 此 其 权重 值 为 1。 网 页 C 和 D 都 链 向 网 
页 A， 因 此 A 的 权重 值 是 网 页 C 和 DD 权重 值 的 和 ， 也 整 是 1+1=2。B 网 页 


从 A 获 得 的 权重 值 为 >， 而 E 又 从 B 获 得 权重 值 2。 (这 里 谈 到 的 情况 都 
由 上 图 左 侧 部 分 所 体现 。) 但 现在 A 的 权重 值 要 更 新 了 : A 从 C 和 D 各 
得 到 权重 值 1， 但 也 从 E 得 到 权重 值 2， 相 加 为 4。 于 是 B 的 权重 值 也 需 
要 更 新 : 从 A 获 得 权重 值 4。 然 后 E 的 权重 值 也 要 更 新 ， 它 从 B 获 得 了 权 
重 值 4。 (现在 谈 到 的 情况 都 由 上 图 右 侧 部 分 所 体现 。) 依 此 类 推 : 于 
是 A 的 权重 值 变 为 6，B 为 6，E 为 6， 于 是 A 的 权重 值 变 为 8...... 你 懂 了 
吧 ? 随 着 循环 进行 ， 网 页 的 权重 值 会 一 直 增 加 。 


这 样 计算 权重 值 ， 会 产生 * 鸡 生 蛋 ， 还 是 蛋 生 鸡 ” 的 问题 。 如 果 我 
们 知道 A 网 页 真正 的 权重 值 ， 我 们 惑 能 计算 B 网 页 和 E 网 页 的 权重 值 。 
而 如 果 我 们 知道 B 网 页 和 E 网 页 真正 的 权重 值 ， 我 们 束 能 计算 A 网 页 的 
权重 值 。 但 由 于 这 些 网 页 彼此 依赖 ， 似 乎 这 样 计算 根本 行 不 通 。 


随机 访问 者 模式 ， 被 访问 者 访问 的 网 页 用 灰色 表示 ， 虚 线 箭 头 代表 随机 重新 开始 访问 
0 页 A 开 始 ， 指 向 随机 选择 的 超 链 接 ， 并 被 两 个 随机 重新 开始 访问 箭头 
T Lo 


幸运 的 是 ， 我 们 可 以 通过 被 称 为 随机 访问 者 把 戏 (the random 
surfer trick) 的 技术 解决 这 个 “ 鸡 生 蛋 ， 还 是 蛋 生 鸡 ” 的 问题 。 注 意 : 对 
随机 访问 者 把 戏 的 初始 描述 ， 和 到 目前 为 止 探讨 的 超 链 接 及 权重 把 戏 
没有 任何 关联 。 一 旦 了 解 了 随机 访问 者 把 戏 的 基本 原理 ， 我 们 整 会 做 
一 些 分 析 ， 揭 示 其 令 人 瞩目 的 品质 : 随机 访问 者 把 戏 结合 了 超 链接 及 
权重 把 戏 令 人 喜爱 的 属性 ， 但 在 出 现 超 链接 循环 时 也 行 得 通 。 


这 个 把 戏 从 假想 一 个 随机 访问 互联 网 的 人 开始 。 确 切 地 说 ， 访 问 
者 随机 从 万 维 网 上 的 一 个 网 页 开始 访问 ， 然 后 检查 该 网 页 上 的 所 有 超 
链接 ， 之 后 随机 挑选 出 其 中 一 个 超 链接 进行 点 击 。 用 户 再 检查 打开 的 
新 网 页 ， 随 机 选择 一 个 超 链接 打开 。 这 个 过 程 会 持续 进行 ， 每 一 个 网 
页 都 是 通过 随机 选择 前 一 个 网 页 上 的 链接 打开 的 。 上 图 束 是 个 例子 。 
在 这 个 例子 中 ， 我 们 假设 整个 万 维 网 只 有 16 个 网 页 。 框 代表 网 页 ， 入 
头 代 表 网 页 之 间 的 超 链接 。 其 中 标记 了 四 个 网 页 以 便 稍 后 进行 参考 。 
被 访问 者 访问 的 网 页 用 灰色 表示 ， 黑 色 第 头 代 表 访 问 者 点 击 的 超 链 
接 ， 虚 线 箭 头 代 表 随 机 重新 开始 访问 ， 这 个 在 之 后 会 讲 到 。 


整个 过 程 有 一 个 转折 点 : 每 次 访问 一 个 网 页 时 ， 都 有 一 个 固定 的 
重新 访问 概率 (大 概 是 15%) ， 让 访问 者 不 从 已 有 的 超 链接 中 挑选 一 
个 并 点 击 。 相 反 ， 访 问 者 会 重新 开始 这 一 过 程 ， 从 互联 网 上 随机 选择 
一 个 网 页 点 击 。 你 也 可 以 认为 访问 者 有 15% 的 概率 对 任何 已 有 网 页 大 
倦 ， 导 致 其 点 击 尹 一 组 链接 ， 这 么 想 也 许 会 有 帮助 。 要 想 找 些 例子 ， 
请 仔细 观察 上 疼 。 这 个 特定 的 访问 者 从 网 页 A 开 始 ， 在 对 网 页 B 厌 倦 前 
连续 点 击 了 三 个 随机 超 链 接 ， 并 在 网 页 C 重 新 开始 。 在 下 次 重新 开始 
前 ,访问 者 又 点 击 了 两 个 随机 超 链 接 。 (顺便 说 一 句 ， 本 章 中 所 有 随 
机 访问 者 例子 中 的 重新 开始 概率 都 为 15%， 这 也 是 谷歌 联合 创始 人 拉 
里 : 佩 奇 和 谢 尔 盖 : 布 林 在 描述 其 搜索 引 敬 原型 的 原始 论文 中 使 用 的 
值 。) 


用 计算 机 模拟 这 一 过 程 很 容易 。 我 为 此 写 了 一 个 程序 并 运行 了 
它 ， 直 到 访问 者 访问 了 1 000 个 网 页 。 (当然 ， 这 并 不 意味 着 是 1 000 个 
不 重复 的 网 页 。 对 同一 网 页 的 多 次 访问 也 被 纳入 了 计算 当中 ， 在 这 个 
例子 中 ， 所 有 网 页 都 被 访问 了 多 次 。) 这 1 000 次 模拟 访问 的 结果 显示 
在 下 图 ( 顶 图 ) 中 。 你 可 以 看 到 ， 网 页 DD 的 访问 次 数 最 多 ， 有 144 次 。 


忠 像 民意 调查 一 样 ， 我 们 可 以 通过 增加 随机 样本 的 数目 来 提高 模 
拟 精 度 。 我 重新 运行 了 一 次 模拟 ， 直 到 访问 者 访问 了 一 百 万 个 网 页 。 
(也 许 你 会 想 这 花 了 多 长 时 间 ， 在 我 电脑 上 运行 只 花 了 不 到 半 秒 ! ) 
著 虚 到 访问 量 如 此 巨大 ， 还 是 用 百分比 表示 结果 更 好 。 这 也 束 是 你 将 
在 下 图 〈 底 图 ) 中 看 到 的 情形 。 和 之 前 的 结果 一 样 ， 网 页 DD 的 访问 次 
数 最 频繁 ， 占 总 访问 量 的 15%。 


随机 访问 者 模型 和 权重 把 戏 之 间 有 什么 联系 可 以 被 我 们 用 于 网 页 
排名 呢 ? 从 随机 访问 者 模拟 中 计算 得 出 的 百分比 ， 正 好 就 是 我 们 在 衡 
量 一 个 网 页 的 权重 时 所 需要 的 。 因 此 ， 让 我 们 将 网 页 的 访问 者 权重 值 

(surfer authority score) 定义 为 一 名 随机 访问 者 花 在 访问 该 网 页 的 时 间 
比例 。 值 得 注意 的 是 ， 访 问 者 权重 值 能 和 前 两 个 对 网 页 重要 性 进行 排 
名 的 把 戏 配合 良好 。 我 们 会 逐一 审视 这 些 把 戏 。 


首先 ， 让 我 们 来 审视 一 下 超 链 接 把 戏 ， 超 链接 把 戏 的 主要 思想 
和 是， 一 个 有 许多 链 入 链接 的 网 页 应 该 有 高 排名 。 这 在 随机 访问 者 模型 
中 也 适用 ， 因 为 一 个 有 许多 链 入 链接 的 网 页 被 访问 的 概率 较 大 。 下 图 
( 底 图 ) 中 的 网 页 D 吉 是 个 好 例子 : 它 有 五 个 链 入 链接 一 一 比 模拟 中 
的 其 他 网 页 都 多 一 一 访问 者 权重 值 也 最 高 (15%) 。 


其 次 ， 让 我 们 来 看 看 权重 把 戏 。 权 重 把 戏 的 主要 思想 是 ， 和 来 目 
低 权 重 网 页 的 链 入 链接 相 比 ， 一 个 来 目 高 权重 网 页 的 链 入 链接 应 该 更 
能 证 明 一 个 网 页 的 排名 。 随 机 访问 者 模型 也 包含 这 一 点 。 为 什么 ? 
为 和 一 个 来 目 不 知名 网 页 的 链接 相 比 ， 访 问 者 更 有 可 能 继续 点 击 一 个 
来 目 知名 网 页 的 链 入 链接 。 要 在 我 们 的 模拟 中 找 这 样 一 个 例子 ， 请 比 


较 上 面 底 图 中 的 网 页 A 和 C: 这 两 个 网 页 都 有 一 个 链 入 链接 ， 但 网 页 A 
的 访问 者 权重 值 要 高 得 多 (13% VS 2%) ， 这 主要 取决 于 其 链 入 链接 
的 质量 。 


随机 访问 者 模拟 。 顶 图 1000 次 访问 模拟 中 各 网 页 的 访问 次 数 。 


底 图 : 100 万 次 访问 模拟 中 各 网 页 的 访问 次 数 占 比 。 


注意 ， 随 机 访问 者 模型 天 生 能 同时 和 超 链 接 把 戏 及 权重 把 戏 相配 


合 。 


前 文 炒 蛋 例 中 各 网 页 的 访问 者 权重 值 。 伯 特 的 菜谱 网 页 和 欧 尼 的 
荣 谱 网 页 都 只 有 一 个 链 入 链接 传 入 权重 ， 但 伯 特 的 网 页 在 网 络 搜索 碍 
询 “scrambled eggs” ( 炒 蛋 ) 时 排名 会 更 高 。 


换 名 话说， 每 个 网 页 链 入 链接 的 质量 和 数量 都 会 被 纳入 考虑 范 
围 。 网 页 B 就 展示 了 这 些 : 网 页 B 的 访问 者 权重 值 相 对 较 高 (10%) ， 
得 益 于 三 个 链 入 链接 所 在 的 网 页 拥有 适中 的 访问 者 权重 值 ， 从 4% 到 
7% 不 等 。 


随机 访问 者 把 戏 的 美妙 之 处 在 于 ， 和 权重 把 戏 不 同 ， 不 管 超 链接 
有 没有 形成 循环 ， 随 机 访问 者 把 戏 都 能 完美 地 运作 。 回 到 早 前 的 炒 蛋 


例子 ， 我 们 能 轻易 地 运行 一 次 随机 访问 者 模拟 。 在 数 百 万 次 访问 之 
后 ， 我 的 模拟 产生 了 如 上 图 所 示 的 访问 者 权重 值 。 


早 前 超 链 接 循 环 例子 (此 图 ) 的 访问 者 权重 值 。 随 机 访问 者 把 戏 在 计算 合理 的 分 值 上 没有 问 
题 、 & 管 存在 一 人 人 人 E-A) 


请 留意 ， 和 之 前 使 用 权重 把 戏 进行 的 计算 一 样 ， 伯 特 的 网 页 访问 
者 权重 值 要 比 欧 尼 的 网 页 高 很 多 (28%VS 196) 尽管 这 两 个 网 页 
都 只 有 一 个 链 入 链接 。 因 此 ， 伯 特 的 网 页 在 网 络 搜索 查询 “scrambled 
eggs”( 炒 蛋 ) 中 排名 更 高 。 


现在 让 我 们 再 转向 前 文中 更 困难 的 例子 ， 对 于 最 初 的 权重 把 戏 而 
， 由 于 超 链 接 循环 的 存在 ， 这 张 图 产生 了 一 个 不 可 解 的 问题 。 和 前 
面 一 样 ， 运 行 一 次 随机 访问 者 的 计算 机 模拟 很 容易 ， 于 是 产生 了 如 上 
图 所 示 的 访问 者 权重 值 。 由 这 一 模拟 判定 的 访问 者 权重 值 给 出 了 网 页 
的 最 终 排 名， 这 些 排 名 会 被 搜索 引擎 在 返回 结 采 时 使 用 : 网 页 A 排 名 
最 高 ， 之 后 是 B 和 E，C 和 D 的 排名 同 列 最 后 一 名 。 


ll 


| 实际 中 的 PageRank 


谷歌 的 两 位 联合 创始 人 于 1998 年 在 他 们 著名 的 会 议论 文 《 解 析 大 
规模 超 文本 网 络 搜索 引擎 》 中 摘 述 了 随机 访问 者 把 戏 。 通 过 和 其 他 许 
多 技术 结合 ， 这 一 把 戏 的 变 体 仍 被 主流 搜索 引擎 所 使 用 。 不 过 ， 由 于 
众多 复杂 因素 ， 应 用 在 现代 搜索 引 警 中 的 实际 技术 和 本 章 描 述 的 随机 
访问 者 把 戏 略 有 不 同 。 


其 中 一 个 复杂 因素 直击 PageRank 的 核心 : 有 时 候 ， 假 设 超 链接 传 
输 的 合法 权威 性 有 和 争议。 我 们 先前 已 了 解 到 ， 尽 管 超 链 接 能 代表 批评 
而 非 推 荐 ， 但 这 在 现实 中 并 不 是 个 很 大 的 问题 。 男 一 个 更 加 严重 的 问 
题 是 ， 人 们 可 以 滥用 超 链 接 把 戏 ， 人 为 地 提高 自己 网 页 的 排名 。 假 设 
你 运营 着 一 个 名 为 BooksBooksBooks.com 的 网 站 来 售 书 (惊讶 吧 ，) 
通过 使 用 自动 化 技术 ， 创 建 一 大 堆 不 同 的 网 页 一 一 比如 一 万 个 并 
让 这 些 网 页 都 链 向 BooksBooksBooks.com， 做 到 这 一 切 相 对 很 容易 。 
此 ， 如 采 搜 索引 擎 和 本 章 描 述 的 一 样 来 计算 PageRank 权 重 ， 
BooksBooksBooks.com 的 权重 值 就 能 比 其 他 书店 高 数 千 倍 ， 进 而 有 更 
高 的 排名 和 更 多 的 销售 额 ， 而 这 都 不 是 BooksBooksBooks.com 应 得 
时 。 


搜索 引擎 称 这 种 滥用 为 网 络 垃 圾 (web spam) 。 (这 一 术语 是 和 
电子 邮件 垃圾 <e-mail spam> 类 比 得 来 的 : 电子 邮件 收 件 箱 中 无 用 的 信 
\， 类 似 于 充斥 在 搜索 结果 中 无 用 的 网 页 。) 对 于 所 有 搜索 引擎 而 
， 侦 测 并 消除 不 同类 型 的 网 络 垃圾 是 一 直 在 进行 的 重要 任务 。 比 
如 ， 在 2004 年 ， 微 软 一 些 研究 人 员 发 现 ， 和 逾 30 万 个 网 页 都 只 有 1 001 个 
网 页 链 辣 它们 这 是 件 非常 令 人 生 疑 的 事情 。 通 过 手动 检查 这 些 网 
页 ， 研 究 人 员 发 现 ， 这 些 链 入 超 链 接 绝 大 多 数 都 是 网 络 垃圾 。 
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因此 ， 搜 索引 警 和 网 络 垃圾 制造 者 在 进行 一 场 军 备 竞 赛 。 搜 索引 
擎 不 断 答 试 完 善 算法 ， 以 便 返 回 真实 排名 。 在 完善 PageRank 算 法 的 驱 
动 下 ， 孕 育 了 大 量 针 对 其 他 使 用 互联 网 超 链 接 结 构 进行 网 页 排名 的 算 
法 的 学 术 和 行业 研究 。 这 类 算法 通常 被 称 为 基于 链接 的 排名 算法 
(link-based ranking algorithms) 。 


男 一 个 复 洒 因素 与 PageRank 计 算 的 高 效 性 有 关 。 访 问 者 权重 值 是 
通过 运行 随机 模拟 来 计算 的 ， 但 在 整个 互联 网 上 运行 这 类 模拟 耗 时 太 
长 ， 不 能 进行 实际 运用 。 因 此 ， 搜 索引 擎 并 非 通过 模拟 随机 访问 者 来 
计算 PageRank 值 : 它们 使 用 能 像 随机 访问 者 模拟 一 样 给 出 相同 答案 的 
数学 技巧 ， 但 计算 成 本 要 低 很 多 。 我 们 研究 访问 者 模拟 技术 是 因为 它 
直观 的 吸引 力 ， 也 因为 它 描 述 了 搜索 引擎 计算 什么 ， 而 非 如 何 计算 。 


另外 ， 值 得 一 提 的 还 有 ， 商 业 搜索 引擎 中 用 来 判定 排名 的 算法 ， 
要 比 PageRank 这 类 基于 链接 的 排名 算法 多 得 多 。 即 便 是 在 他 们 于 1998 
年 发 表 的 描述 谷歌 的 原始 论文 中 ， 谷 歌 的 联合 创始 人 也 提 到 了 多 种 对 
搜索 结果 排名 有 贡献 的 功能 。 正 如 你 所 想 的 ， 这 项 技术 已 经 进步 了 : 
在 写作 本 书 时 ， 合 歌 官 网 上 声明 “有 超过 200 个 信号 ”被 用 于 评 售 一 个 网 
页 的 重要 性 。 


除了 现代 搜索 引擎 的 众多 复杂 性 之 外 ，PageRank 核 心 的 优美 思想 
一 一 权威 性 网 页 通过 超 链 接 向 其 他 网 页 传输 权重 一 一 仍然 有 效 。 正 古 
这 一 思想 帮助 谷歌 击败 了 AltaVista， 让 合 歌 从 一 家 小 型 创业 企业 几 年 
后 成 长 为 搜索 之 王 。 没 有 PageRank 的 核心 思想 ， 绝 大 多 数 搜索 引擎 查 
询 都 将 被 成 和 干 上 万 命中 但 不 相关 的 网 页 海洋 所 淹没 。PageRank 的 确 是 
一 块 算法 瑰宝 ， 能 让 针 达 不 费力 地 冒 到 草 坊 的 顶端 。 


公 角 加 密 一 一 用 明 信 厂 传输 秘密 


波 
加 
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谁 知道 我 这 些 最 隐秘 的 事情 ? 它们 就 藏 在 
世界 中 。 


> 


鲍 芝 .过 伦 ， 
《 立 约 的 女人 》 (Covenant Woman) 

人 们 喜欢 传 语 ， 也 喜欢 了 解 秘密 。 而 由 于 加 蜜 的 目的 瓯 是 传输 秘 
密 ， 所 以 我 们 都 是 天 生 的 密码 员 。 但 人 类 进行 秘密 沟通 要 比 计算 机 容 
易 。 如 采 你 想 癌 朋友 透露 一 个 秘密 ， 你 只 需 在 朋友 和 耳 边 低 声 说 就 行 。 
计算 机 要 做 到 这 一 点 束 不 那么 容易 了 。 一 台 计 算 机 没有 办 法 “ 低 声 ” 癌 
男 一 人 台 计 算 机 透露 一 张 信 用 卡 的 卡号 。 如 有 果 计 算 机 由 互联 网 相连 ， 它 
们 控制 不 了 信用 卡 卡号 的 流向 ， 也 无 法 控制 会 有 哪些 计算 机 知道 卡 
号 。 在 本 章 ， 我 们 会 探究 计算 机 如 何 应 对 这 一 问题 一 一 通过 运用 永远 
都 称 得 上 最 精巧 、 最 具 影 响 力 的 计算 机 科学 思想 之 一 : 公 钥 加 密 
(public key cryptography) 。 


读 到 这 里 ， 你 也 许 会 想 ， 为 什么 本 章 的 标题 中 会 提 到 “用 明信片 传 
输 秘密 ”? 下 页 图 会 给 出 答案 可 以 用 通过 明信片 传输 作为 类 比 ， 以 展 
示 公 钥 加 密 的 威力 。 在 现实 生活 中 ， 如 末 你 想 要 发 送 一 份 机密 文 件 给 
某 人 ， 你 目 然 会 在 发 送 前 将 文件 封存 在 一 个 安全 的 密封 的 信封 内 。 这 
并 不 能 保证 机 密 性 ， 但 却 是 正确 方向 上 的 一 个 合理 步骤 。 相 反 ， 如 采 
在 发 送 机 密 消 居 前 ， 将 机 密 信息 写 在 明信片 背面 ， 很 明显 ， 这 违 
机 密 性 ， 任何 一 个 接触 过 明 信 乒 的 人 (比如 邮局 工作 人 员 ) 都 只 
看 明信片 ， 束 能 读 到 这 条 消 轧 。 


背 了 


™ 
A 人 AN 


这 也 正 是 计算 机 在 互联 网 上 尝试 相互 进行 机 密 通 信 时 面临 的 问 
题 。 因 为 互联 网 上 的 所 有 消 恩 都 会 通过 无 数 被 称 为 路 由 右 的 计算 机 ， 
Re de ee 

鳃 听 者 。 因 此 ， 每 一 块 离开 你 计算 机 并 进入 互联 网 的 数据 ， 束 好 像 写 
在 明信片 上 | 


明信片 接收 入 


明信片 撰写 人 


你 的 笔记 本 电脑 BD ee 


互联 网 路 由 器 Amazon.com 服 务 器 
(及 潜在 的 窃听 者 ) 


明信片 类 比 : 很 显然 ， 通 过 邮政 系统 寄 出 一 张 明 信 和 片 不 能 保证 明信片 内 容 的 秘密 性 。 基 于 同 
样 的 理由 ， 如 果 没 有 恰当 地 加 密 ， 从 你 的 笔记 本 电脑 上 将 一 张 信 用 卡 的 卡号 发 送 给 
Amazon.com, 很 容易 就 会 被 一 名 窃听 者 窥探 到 。 


针对 这 个 明信片 问题 ， 你 也 许 已 经 想到 了 一 个 快速 补救 方案 。 在 
将 消 妃 写 到 明信片 上 之 前 ， 为 什么 我 们 不 使 用 密码 对 每 条 消 轧 进行 加 
密 呢 ? 实际 上 ， 如 果 你 已 经 知道 接收 明 信 厂 的 人 ， 这 个 方法 还 能 奏 
效 ， 因 为 在 过 去 某 个 时 刻 ， 你 们 束 使 用 哪 种 密码 已 经 达成 一 至。 真正 


的 问题 出 现在 你 给 不 认识 的 人 寄 明 信和 片 时 。 如 有 果 你 在 明信片 上 使 用 密 
码 ， 邮 局 工作 人 员 就 不 能 读 取 你 的 消 妃 ， 收 信人 当然 也 不 能 ! 公 钥 加 
密 的 真正 威力 在 于 ， 它 允许 你 应 用 只 有 接收 方才 能 解密 的 密码 一 一 除 
非 你 不 能 束 使 用 哪 种 密码 达成 一 致 。 


注意 ， 计 算 机 在 和 不 “认识 ”的 接收 方 通信 时 会 面临 相同 的 问题 。 
比如 ， 你 第 一 次 用 信用 卡 在 Amazon.com 上 购物 时 ， 你 的 计算 机 必须 将 
你 的 信用 卡 卡号 传输 给 亚 马 示 的 服务 器 。 但 你 的 计算 机 之 前 从 未 和 亚 
马 示 的 服务 右 联 系 过 ， 因 此 这 两 台 计 算 机 在 过 去 没有 机 会 瓯 密码 达成 
一 致 。 而 它们 之 间 竹 试 达 成 的 任何 协议 都 会 被 互联 网 上 所 有 的 路 由 器 
注意 到 。 


让 我 们 回 到 明信片 的 类 比 。 的 确 ， 这 种 情况 听 起 来 像 个 悍 论 ， 接 
收 方 看 到 的 信息 和 邮局 工作 人 员 看 到 的 一 样 ， 但 接收 方 却 有 某 种 手段 
能 解码 消息 ， 而 邮局 工作 人 员 却 没有 这 种 手段 。 公 和 钠 加 密 为 这 一 悖 论 
提供 了 一 个 解决 方案 。 本 章 将 解释 其 工作 原理 。 


用 共 至 密 钥 加 密 


让 我 们 从 一 个 非常 简单 的 思想 实验 开始 。 我 们 将 放弃 明 信 厂 类 
比 ， 用 一 些 更 稍 单 的 来 代 蔡 : 在 一 个 房间 内 的 口头 交流 。 有 具体 情况 
征 ， 你 和 朋友 阿 庄 德 以 及 敌人 伊 天 行 在 一 个 房间 里 。 你 想 要 秘密 地 传 
输 一 条 消息 给 阿 诸 德 ， 但 又 不 能 让 伊 关 理 解 这 条 消 肯 。 这 条 消息 可 能 
征 一 张 信 用 卡 的 卡号 ， 但 为 方便 起 见 ， 假 设 这 是 一 个 极其 短 的 信用 卡 
卡号 ， 只 是 1 到 9 之 间 的 一 个 数字 。 而 你 只 能 通过 大 声 说 话 和 阿诺德 联 
系 ， 好 让 伊 天 听 到 。 不 得 偷偷 摸 措 地 要 小 把 戏 ， 比 如 小 声 说 或 传 纸 


条 。 


具体 来 说 ， 让 我 们 假设 你 试图 传输 的 信用 卡 卡 号 为 7。 有 一 种 方法 
可 以 让 你 达成 目标 ， 前 先 ， 笑 试想 一 些 阿 诺 德 知道 而 伊 天 不 知道 的 数 
字 ; 比如 ， 你 和 阿诺德 成 为 朋友 很 人 了， 从 孩提 时 整 生 活 在 同一 条 街 
上 。 事 实 上 ,假设 你 俩 经 常 在 你 家 前 院 玩 要 ，|] 牌 号 是 愉快 街 322 号 。 
其 次 ,假设 伊 天 并 不 是 从 小 束 认 识 你 ， 特 别 是 她 不 知道 你 和 阿诺德 过 
去 经 向 玩 页 的 房屋 地 址 。 你 束 能 对 阿 诸 德 说 :“ 虽 ， 阿 族 德 ， 记 得 我 在 
愉快 街 的 家 的 门牌 号 吗 ? 我 们 过 去 一 起 玩 要 的 地 方 。 如 果 你 用 门牌 
号 ， 加 上 我 现在 想到 的 信用 卡 卡号 中 的 一 个 数 ， 你 会 得 到 329。” 


相 加 把 戏 ， 通 过 将 消息 7 和 共享 密 钥 322 相 加 ， 消 息 7 被 加 密 了 。 阿 诺 德 可 以 通过 减 去 共享 密 钥 
提取 消息 7， 但 伊美 却 不 能 。 


现在 ， 只 要 阿诺德 能 正确 地 记得 房屋 | ] 牌 号 ， 他 就 可 以 通过 将 你 
告诉 他 的 总 数 329 和 房屋 门牌 喜 相 减 ， 得 到 信用 卡 卡号 。 他 用 329 减 去 
322 得 7， 这 也 是 你 试图 向 他 传输 的 信用 卡 卡号 。 同 时 ， 伊 关 却 不 知道 
信用 卡 卡 号 是 多 少 ， 尽 管 她 能 昕 到 你 跟 阿诺德 说 的 每 个 词 。 上 图 显示 
了 整个 过 程 。 


为 什么 这 种 方法 能 奏效 ? 因为 你 和 阿 诡 德 有 一 样 东 西 ， 也 吏 是 计 
算 机 科学 家 们 所 谓 的 共享 密 钥 : 数字 322。 因 为 你 俩 都 知道 这 个 数字 ， 
但 伊 天 却 不 知道 ， 你 可 以 使 用 这 个 共生 密 钥 秘密 地 传输 任何 数字 ， 只 
要 和 共享 密 钥 相 加 ， 说 出 总 数 ， 让 另 一 方 减 去 共 主 密 钥 即 可 。 昕 到 总 
数 对 伊 天 没有 任何 用 处 ， 因 为 她 不 知道 要 减 去 哪个 数字 。 


不 管 你 是 否 相 信 ， 如 有 果 理 解 了 这 个 简单 的 * 相 加 把 戏 “ 一 一 将 一 个 
共 至 密 钥 和 如 一 张 信 用 卡 的 卡号 这 类 私人 消 居 相 加 一 一 你 束 理 解 了 互 
联网 上 绝 大 多 数 加 密 真正 的 运作 原理 ! 计算 机 不 断 地 运用 着 这 一 把 
戏 ， 但 要 真正 实现 保密 性 ， 还 有 一 些 细节 需要 注意 。 


首先 ， 计 算 机 使 用 的 共 至 密 钥 要 比 房屋 门牌 号 322 长 很 多 。 如 果 密 
钥 太 短 ， 任 何 鳃 听 对 话 的 人 都 可 以 试 过 所 有 可 能 性 。 比 如 ， 假 设 我 们 
使 用 相 加 把 戏 ， 用 一 个 3 位 数 房屋 门牌 号 来 加 密 一 个 真正 的 16 位 数 信用 
卡 卡 号 。 注 意 ，3 位 数 房屋 门牌 号 有 999 种 可 能 ， 那 么 像 伊 天 这 样 镭 听 
了 对 话 的 敌人 可 以 列 出 一 个 包含 所 有 999 个 可 能 数字 的 表 ， 而 其 中 肯定 
有 一 个 数字 古 信用 卡 卡 号 。 而 计算 机 几乎 不 用 费 什 么 时 间 束 能 试 通 999 
个 信用 卡 卡 号 ， 因 此 为 了 共有 至 密 钥 能 起 作用 ， 我 们 需要 用 远 长 于 3 位 数 
的 数 子 来 作为 共 译 密 钥 。 


事实 上 ， 当 你 听 到 某 种 加 密 是 一 个 特定 位 数 的 数字 ， 比 如 “128 位 
加 密 ”， 这 实际 上 说 的 是 共享 密 钥 的 长 度 。 共 享 密 钥 通常 被 称 为 " 钥 ”， 
是 因为 它 能 用 于 解锁 或 "解密 "一 条 消息 。 如 果 你 解 开 了 钥匙 数位 的 
30%， 这 也 就 告诉 了 你 钥 是 的 大 致 数位 。 因 为 128 的 30% 大 约 是 38， 我 
们 就 知道 128 位 加 密使 用 的 钥 是 是 一 个 38 位 的 数值 ) 。 一 个 38 位 数 要 比 
10 的 36 次 方 还 要 大 ， 而 又 因为 这 需要 任何 现存 的 计算 机 花费 数 十 亿 年 
时 间 来 试 遍 这 么 多 可 能 性 ， 一 个 38 位 数 的 共享 密 钥 被 认为 非常 安全 。 


这 个 简单 相 加 把 戏 要 在 现实 生活 中 奏效 还 要 克服 一 个 困难 : 加 法 
得 出 的 结果 能 用 于 统计 分 析 ， 这 意味 着 一 些 人 能 通过 分 析 大 量 你 的 加 


密 消 息 来 得 到 钥匙。 相反 ， 被 称 为 “分 块 密码 ” (block cipher) 的 现代 
加 密 技 术 使 用 了 相 加 把 戏 的 变 体 。 


首先 ， 长 消息 被 分 解 成 固定 大 小 (通常 是 10~15 个 字母 ) 的 
小 “ 块 ”。 其 次 ， 和 简单 地 将 一 块 消 妃 与 钥 古 相 加 不 同 的 是 ， 每 个 块 都 
会 根据 一 系列 固定 规则 转换 数 次 。 这 些 规则 类 似 于 加 法 ， 但 会 让 消 恩 
和 钥 古 更 某 密 地 混合 在 一 起 。 比 如 ， 规 则 可 以 是 “将 钥匙 的 前 半 部 分 和 
这 块 消息 的 后 半 部 分 相 加 ， 倒 置 结果 ， 表 将 钥匙 的 第 二 部 分 和 这 块 消 
轧 的 前 半 部 分 相 加 “一 一 不 过 在 现实 中 ， 这 些 规 则 要 更 加 复杂 一 些 。 现 
代 分 块 密码 基本 上 会 进行 10“ 轮 ?或 更 多 类 似 操 作 ， 即 操作 列表 会 被 反 
复 应 用 。 在 转换 的 轮 数 足够 多 时 ， 原 始 消息 会 真正 地 混合 好 ， 并 能 抵 
御 统 计 攻 击 ， 但 任何 知道 角 十 的 人 部 能 用 相反 的 步 又 运行 所 有 操作 ， 
以 获得 最 初 的 解密 的 消 居 。 


在 写作 本 书 时 ， 最 流行 的 分 块 密码 是 高 级 加 密 标准 (Advanced 
Encryption Standard ) ， 或 称 AES。AES 能 配合 多 种 不 同 配置 使 用 ， 但 
标准 配置 是 使 用 16 个 字母 的 块 ， 配 备 128 位 密 钥 ， 进 行 10 轮 混合 操作 。 


公开 建立 一 个 共 孚 密 钥 


到 目前 为 止 ， 一 切 情况 恨 好。 我 们 已 经 知道 互联 网 上 绝 大 多 数 加 
密 技 术 的 运作 原理 : 将 消息 分 成 块 ， 使 用 加 法 把 戏 变 体 加 密 每 个 块 。 
但 这 十 加 密 人 简单 的 地 方 。 难 点 在 于 一 开始 要 建立 一 个 共 至 密 钥 。 在 上 
面 的 例子 中 ， 在 你 和 阿诺德 及 伊 天 答 的 房间 里 ， 其 实 我 们 做 点 了 星 
一 一 我 们 利用 了 你 和 阿诺德 从 小 玩 到 大 的 事实 ， 因 此 阿诺德 知道 共 至 
密 钥 (你 家 的 房屋 门牌 号 ) 而 伊 天 不 可 能 知道 。 如 果 你 、 阿 诺 德 和 伊 
天 都 是 卫 生 人 ， 我 们 怎么 玩 同 样 的 游戏 ?” 你 有 没有 办 法 和 阿诺德 建立 
一 个 伊 和 天 不 知道 的 共享 密 钥 ? ( 记 住 ， 不 能 作 浆 一 一 你 不 能 低 声 跟 阿 


诺 德 说 任何 事情 或 给 阿诺德 一 张 伊美 看 不 到 的 纸 条 。 所 有 沟通 都 必须 
公开 。) 


乍 一 看 ， 要 做 到 这 一 点 似乎 不 可 能 ， 但 还 是 有 个 精巧 的 办 法 能 解 
决 这 个 问题 。 计 算 机 科学 家 们 称 这 一 解决 方案 为 迪 菲 一 赫 尔 曼 密 钥 交 
换 (Diffie-Hellman key exchange) ， 但 我 们 把 它 称 作 颜 料 混 合 把 戏 

(paint-mixing trick) 。 


有 癌 科 混合 把 式 


要 理解 这 一 把 戏 ， 我 们 先 不 管 传输 信用 卡 卡 号 的 事 ， 而 是 假设 你 
想 要 分 享 的 密 钥 是 一 种 特殊 颜色 的 颜料 。 (的 确 ， 这 有 点 诡异 ， 但 我 
们 很 快 会 看 到 ， 用 这 种 方法 来 思考 这 个 问题 非常 有 用 。) 现在 假设 你 
和 阿 话 德 、 伊 天 行 在 一 个 房间 内 ， 每 人 都 有 大 量 不 同 的 颜料 桶 。 你 们 
都 拥有 相同 的 颜色 选择 一 一 有 多 种 不 同 颜色 ， 每 个 人 都 拥有 多 棚 相 同 
颜色 的 颜料 。 这 样 就 不 存在 用 完 颜 料 的 问题 了 。 每 一 桶 颜料 者 清楚 地 
标示 了 其 颜色 ， 因 此 在 具体 指导 其 他 人 混合 不 同 关 色 的 颜料 上 束 很 容 
易 了 : 你 只 要 说 些 如 “将 一 桶 ‘天 监 色 ' 颜 料 和 六 桶 ' 淡 黄 和 褐色’ 颜料 以 及 
五 桶 ' 胜 绿色 ’ 颜 料 混合 在 一 起 ”的 话 即 可 。 但 在 每 一 块 已 知 的 色 板 
(shade) 上 都 有 上 百 或 上 千 种 颜色 ， 因 此 ， 不 可 能 只 通过 看 颜色 就 知 
道 其 中 宴 合 了 哪些 具体 的 颜色 。 而 且 也 不 可 能 通过 试 错 发 现 混合 颜色 
中 加 入 了 哪些 具体 的 颜色 ， 因 为 可 以 笑 试 的 颜色 太 多 了 。 


现在 要 改变 一 下 游戏 规则 。 你 们 三 人 各 占据 房屋 的 一 角 ， 每 个 角 
落 都 出 于 隐私 考虑 加 以 屏障 ， 你 可 以 在 其 中 存放 颜料 ， 在 其 他 人 看 不 
到 的 情况 下 寓 合 颜料 。 但 沟通 规则 和 之 前 一 样 : 在 你 、 阿 诡 德 和 伊 天 
之 间 的 任何 沟通 都 必须 公开 。 你 不 能 邀请 阿 诡 德 进入 你 的 私人 混合 区 
域 ! 为 一 条 规则 规定 了 你 分 诗 颜 料 混 合 配 方 的 方式 。 你 可 以 给 屋内 其 
他 人 一 批 颜 料 ， 但 只 能 把 颜料 放 到 房间 中 央 的 地 板 上 ， 等 其 他 人 来 捡 


起 它 。 这 也 意味 看 ， 你 永远 也 不 能 确定 谁 会 扒 起 你 放 的 颜料 。 最 好 的 
办 法 是 ， 为 每 个 人 提供 足够 多 的 颜料 ， 然 后 在 房间 中 央 留 下 数 批 分 开 
的 颜料 。 这 样 ， 任 何 想 要 你 颜料 的 人 都 可 以 拿 取 。 这 条 规则 其 实 只 是 
所 有 沟通 都 必须 公开 的 补充 ; 如 采 你 给 了 阿诺德 某 种 混合 颜料 ， 却 没 
有 给 伊 天 ， 你 束 和 阿诺德 进行 了 某 种 “私密 ”沟通 ， 这 违反 了 规则 。 


记 住 ， 这 个 颜料 混合 游戏 由 在 解释 如 何 建立 一 个 共 译 密 钥 。 在 这 
时 ， 你 也 许 在 想 混合 颜料 和 加 密 有 什么 关系 ， 请 不 要 着 急 。 你 将 了 解 
到 一 个 令 人 惊 柯 的 把 戏 ， 计 算 机 使 用 这 一 把 戏 在 像 互 联网 这 样 的 公共 


场合 建立 共享 密 铀 ! 


首先 ， 我 们 要 知道 这 个 游戏 的 目标 。 目 标 是 让 你 和 阿 诗 德 都 能 制 
作 相 同 的 寓 合 颜料 ， 而 不 能 让 伊 天 知道 如 何 生产 。 如 采 你 达成 了 这 一 
目标 ， 我 们 束 能 说 你 和 阿 诡 德 建立 了 一 种 “共享 的 秘密 混合 颜料 ”。 你 
可 以 随心 所 欲 地 进行 尽 可 能 多 的 公开 对 话 ， 你 也 可 以 携 市 颜料 桶 多 次 
往返 于 房间 中 央 及 你 的 私人 混合 区 域 之 间 。 


现在 我 们 要 开始 探访 公 钥 加 密 痛 后 精巧 思想 的 旅程 了 。 我 们 的 颜 
料 混 合 把 戏 分 为 四 步 : 


第 一 步 ， 你 和 阿诺德 各 自选 择 一 种 “私人 颜色 ”。 


你 的 私人 颜色 与 你 最 终 将 制造 的 共 至 秘密 混合 颜料 不 同 ,但 它 将 
征 共 孚 秘密 混合 颜料 的 成 分 之 一 。 你 可 以 选择 任何 一 种 颜色 作为 私人 
颜料 ， 但 你 必须 记 住 这 种 颜色 。 很 显然 ， 你 的 私人 颜色 几乎 肯定 会 和 
阿诺德 的 私人 凑 色 不 同 ， 因 为 可 供 选 择 的 颜色 太 多 了 。 假 设 你 选 了 淡 
紫色 作为 私人 颜色 ， 阿 诡 德 选 了 深 红色 作为 私人 颜色 。 


第 二 步 ， 选择 一 种 新 的 不 同 的 颜色 成 分 并 公开 宣布 ， 我 们 称 
这 种 颜色 为 公开 颜色 ”。 


和 之 前 一 样 ， 你 可 以 选择 任何 颜色 。 假 设 你 宣布 的 公开 颜色 走 秩 
菊 黄 。 注 意 只 能 有 一 种 公开 颜色 〈 而 不 是 你 和 阿诺德 各 选 一 种 公开 颜 
色 ) ， 伊 天 自然 也 知道 这 种 公开 颜色 ， 因 为 你 公开 宣布 了 。 


三 步 : 你 和 阿诺德 各 用 一 桶 公开 颜色 和 一 桶 私人 闫 色 制 造 
一 种 混合 关 色 。 这 就 是 你 的 “公开 一 私人 混合 颜色 ”。 


很 显然 ， 阿诺德 的 公开 一 私人 混合 颜色 会 和 你 的 不 同 ， 因 为 他 的 
私人 颜色 和 你 的 不 同 。 如 有 果 继 续 使 用 上 面 的 例子 ， 你 的 公开 一 私人 混 
合 颜 色 会 包含 一 棚 淡 紫色 和 一 桶 骏 菊 黄 ， 而 阿 诡 德 公开 一 私人 混合 颜 
色 会 包含 一 桶 深 红色 和 一 桶 雏菊 黄 。 


到 这 时 ， 你 和 阿诺德 会 想 给 彼此 公开 一 私人 混合 颜色 的 样品 ， 但 
记 住 ， 直 接 给 房间 中 一 个 人 混合 颜料 是 违反 规则 的 。 给 其 他 人 一 种 混 
合 颜 色 的 唯一 方法 是 制作 数 批 该 种 颜料 ， 并 把 它们 放 到 房间 中 央 ， 以 
便 任 何 想 要 的 人 合 取 。 这 也 正 是 你 和 阿 话 德 所 做 的 : 你 们 俩 都 制作 数 
批 公 开 一 私人 混合 颜色 ， 并 把 它们 放 到 房间 中 央 。 如 采 伊 天 想 要 的 
话 ， 她 可 以 偷 走 一 到 两 批 ， 但 我 们 很 快 融会 了 解 到 ， 这 些 颜 料 对 伊 天 
没有 任何 用 处 。 下 页 的 图 显示 了 颜料 混 合 把 戏 第 三 步 之 后 的 情况 。 


现在 到 达 关 键 点 了 。 如 果 在 这 时 仔细 想 一 会 儿 ， 你 可 能 会 知道 最 
后 的 把 戏 会 让 你 和 阿诺德 制造 出 同一 种 共 至 的 秘密 混合 颜色 ， 而 不 让 
伊 天 知道 秘密 。 答 案 如 下 : 


你 的 公开 一 私人 ”阿诺德 的 公开 一 私人 


混合 颜色 混合 颜色 
阿诺德 
你 的 私人 颜色 阿诺德 的 私人 颜色 


颜料 混合 把 戏 第 三 步 : 任何 想 要 的 人 都 可 以 拿 取 公开 一 私人 混合 颜色 。 


第 四 步 : 你 选取 一 批 阿 诡 德 的 公开 一 私人 寓 合 颜色 ， 拿 回 目 
己 的 角落 。 现 在 加 入 一 桶 私人 颜色 。 同 时 ， 阿 诡 德 选取 一 批 你 的 
公开 一 私人 寓 合 颜色 ， 拿 回 他 的 角落 ， 在 那里 他 再 加 入 一 桶 他 的 
私人 颜色 。 


神奇 吧 ， 你 俩 制作 了 同样 的 混合 颜色 ! 让 我 们 来 检验 一 下 你 将 
自己 的 私人 颜色 ( 淡 紫 色 ) 加 入 阿诺德 的 公开 一 私人 混合 闫 色 ( 深 红 
色 和 和 雏 葡 黄 ) ， 得 到 的 最 终 混 合 颜 色 是 : 一 桶 痰 紫色 、 一 桶 深 红 色 和 
一 桶 锥 菊 黄 。 阿 诺 德 最 终 得 到 的 混合 基色 呢 ? 他 将 目 己 的 私人 颜色 
( 深 红 色 ) 加 入 你 的 公开 一 私人 混合 颜色 〈 淡 紫色 和 雏菊 黄 ) ， 得 到 
的 最 终 混 合 颜色 羡 : 一 桶 深 红 色 、 一 桶 淡 紫 色 和 一 桶 雏菊 黄 。 这 正和 


你 得 到 的 最 终 混合 颜 色 一 样 ， 也 恰好 是 一 种 共享 秘密 宴 合 颜色 。 下 页 
的 独 显 示 了 颜料 宴 合 把 戏 最 后 一 步 的 情形 。 
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你 的 公开 一 私人 ”阿诺德 的 公开 一 私人 
混合 颜色 混合 颜色 


阿诺德 


你 的 私人 共享 混合 
颜色 颜色 颜色 闫 色 
颜料 混合 把 戏 第 四 步 ， 只 有 你 和 阿诺德 能 制作 这 种 共享 秘密 颜色 ， 如 箭头 所 示 组 合 混合 记 
色 。 


比 


那 伊 天 呢 ? 为 什么 她 不 能 制作 一 份 这 种 共 训 秘密 混合 颜色 呢 ? 原 
因 是 她 不 知道 你 或 阿诺德 的 私人 颜色 ， 而 她 至 少 需 要 其 中 一 种 来 制作 
共 至 秘密 混合 凑 色 。 你 和 阿诺德 打败 了 她 ， 因 为 你 从 未 在 房间 中 央 公 
开 过 目 己 的 私人 颜色 。 相 反 ， 你 在 公开 前 将 目 己 的 私人 颜色 和 公开 颜 
色 混 合 在 一 起 ， 而 伊 关 没有 办 法 “分 开 ” 公 开 一 私人 混合 颜色 ， 也 束 不 
能 获得 其 中 一 种 私人 颜色 的 纯正 样本 。 


因此 ， 伊 天 只 能 获取 两 种 公开 一 私人 混合 颜色 。 如 有 果 她 将 一 桶 你 
的 公开 一 私人 混合 关 色 和 一 桶 阿诺德 的 公开 一 私人 混合 颜色 混合 在 一 
起 ， 结 琳 是 包含 了 一 桶 深 红 色 、 一 桶 痰 紫色 和 两 桶 锥 菊 黄 。 换 句 话 
说 ， 和 共 吾 秘密 宴 合 颜色 相 比 ， 伊 天 的 混合 颜色 多 了 一 份 稚 菊 黄 。 她 
的 混合 颜色 太 黄 了 ， 而 因为 没有 办 法 “分 开 ” 闫 料 ， 她 不 能 移 除 多余 的 
黄色 。 你 也 许 会 想 ， 伊 天 可 以 通过 加 入 更 多 深 红色 和 淡 紫 色 来 达到 目 
的 ， 但 要 记 住 ， 伊 天 不 知道 你 的 私人 颜色 ， 因 为 她 不 会 知道 这 些 颜色 
还 需要 加 入 的 颜色 。 她 只 能 加 入 深 红色 配 雏 菊 黄 的 组 合 或 淡 紫 色 配 和 雏 
菊 黄 的 组 合 ， 而 这 会 导致 她 的 混合 颜色 太 黄 。 


用 数字 进行 闫 料 混合 把 戏 


如 有 果 你 理解 了 颜料 混合 把 戏 ， 你 瑟 会 理解 计算 机 在 互联 网 上 建立 
共 至 密 钥 的 核心 机 制 。 当 然 ， 它 们 并 不 真 的 使 用 颜 料 。 计 算 机 使 用 数 
字 ， 而 要 混合 数字 ， 它 们 会 运用 数学 。 计 算 机 实际 使 用 的 数学 并 不 会 
太 复杂 ， 但 也 复杂 到 让 人 第 一 眼看 上 去 束 会 感到 困惑 。 因 此 ， 作 为 理 
解 共 至 密 钥 如 何在 互联 网 上 建立 的 下 一 步 ， 我 们 将 用 到 一 些 “ 伪 装 ” 数 
学 。 真 正 的 要 点 在 于 ， 要 将 颜料 混合 把 戏 转化 成 数字 ， 我 们 需要 一 种 
单 向 操作 (one-way action) : 可 以 做 一 些 事情 ， 但 不 能 取消 做 过 的 
事 。 颜 料 混 合 把 戏 中 的 单 癌 操作 是 “混合 颜料 ”。 将 一 些 颜 料 混合 起 来 
形成 一 种 新 颜色 很 容易 ， 但 要 “分 开 ” 它 们 并 获得 原来 的 颜料 则 不 可 
能 。 这 也 十 为 什么 颜料 混合 是 单 回 操作 的 原因 。 


我 们 在 前 面 提 到 过 ， 将 会 用 到 一 些 伪 法 数学。 下 面 束 是 我 们 要 伪 
装 的 : 将 两 个 数 相 乘 旦 一 项 单 癌 操作。 我 敢 肯 定 ， 你 已 经 意识 到 了 ， 
这 绝对 是 个 借口 。 乘 法 的 反面 是 除法 ， 只 需要 用 除法 区 能 惊奇 地 取消 
乘法 。 比 如 ， 如 采 我 们 从 数字 5 开始 ， 然 后 乘 以 7， 得 到 35。 要 取消 这 
个 乘法 很 容易 ， 只 要 从 35 开 始 ， 除 以 7 束 可 以 了 。 这 会 得 到 我 们 一 开始 
时 的 数字 5。 


但 除 此 以 外 ， 我 们 将 坚持 使 用 这 一 伪 炙 ， 在 你 、 阿 诺 德 和 伊 天 之 
间 玩 另 一 个 游戏 。 这 一 次 ， 我 们 将 假设 你 们 都 知道 如 何 将 数 相 乘 ， 但 
你 们 都 不 知道 如 何 用 一 个 数 除 以 另 一 个 数 。 目标 和 前 面 的 游戏 几乎 一 
样 : 你 和 阿诺德 试图 建立 一 个 共 译 密 钥 ， 但 这 次 共 至 密 钥 将 古 一 个 
数 ， 而 非 一 种 颜料 。 此 前 的 沟通 规则 也 适用 : 所 有 联系 必须 公开 进 
行 ， 这 样 伊 天 束 能 听 到 你 和 阿 诸 德 之 间 的 任何 对 话 。 


好 ， 现 在 我 们 要 做 的 事情 就 古 将 凑 料 混合 把 戏 转换 成 数 子 : 


第 一 步 : 和 选择 一 种 私人 颜色 不同 的 是 ， 你 和 阿诺德 选择 
一 个 “私人 数字 ”。 


假设 你 选择 了 4， 阿 诺 德 选择 了 6。 现 在 回想 颜料 混合 把 戏 剩余 的 
步骤 : 宣布 公开 颜色 ， 制 作 公 开 一 私人 混合 颜色 ， 公 开 地 将 你 的 公开 
一 私人 混合 颜色 与 阿 诸 德 的 公开 一 私人 混合 颜色 交换 ， 最 后 将 你 的 私 
人 颜色 加 入 阿 诗 德 的 公开 一 私人 寓 合 颜色 ， 以 获得 共享 秘密 颜色 。 要 
理解 如 何 将 这 些 步骤 转换 成 数字 ， 并 用 乘法 作为 单 同 操作 取代 颜料 混 
合 也 不 至 于 太 难 。 在 继续 往 下 读 之 前 ， 人 花 几 分 钟 看 看 你 能 否 目 行 理解 
这 仆人 合十 


遵照 这 个 解决 方案 并 不 太 难 ， 你 和 阿诺德 都 选择 了 目 己 的 私人 数 
字 (4 和 6) ， 下 一 步 就 是 : 


第 二 步 : 你 们 其 中 一 个 人 宣布 “公开 数字 ” (取代 颜料 混合 把 
戏 中 的 公开 颜色 ) 。 


假设 你 选择 了 7 作为 公开 数字 。 


闫 料 论 合 把 戏 的 下 一 步 是 制作 一 份 公 开 一 私人 混合 颜色 。 但 我 们 
已 经 决定 ， 用 将 数字 相 乘 来 代替 宴 合 颜料 。 因 此 ， 你 要 做 的 束 是 : 


第 三 步 : 将 你 的 私人 数字 (4) 和 公开 数字 (7) 相 乘 ， 得 
到 “公开 一 私人 数字 ”28 。 


你 可 以 公开 地 宣布 ， 这 样 阿 诺 德 和 伊 天 就 都 知道 了 你 的 公开 一 私 
人 数字 是 28 (无 须 再 携带 凑 料 桶 了 ) 。 阿 诡 德 对 目 己 的 私人 数字 做 了 
同样 的 事 : 他 将 目 己 的 私人 数字 和 公开 数字 相 乘 ， 并 宣布 他 的 公开 一 
私人 数字 是 42。 下 面 的 图 显示 了 整个 流程 到 达 这 一 点 的 情形 。 
公开 数字 


(4x7) (6x7) 


你 的 公开 一 私人 数字 ”阿诺德 的 公开 一 私人 数字 


你 阿诺德 
你 的 私人 阿诺德 的 私人 


数字 数字 


还 记得 颜料 混合 把 戏 的 最 后 一 步 吗 ? 你 拿 走 阿诺德 的 公开 一 私人 
混合 颜色 ， 加 入 一 桶 你 的 私人 颜色 ， 以 制作 共 宇 秘密 颜色 。 这 里 发 生 
的 事情 也 一 模 一 样 ， 用 乘法 代替 颜料 混合 : 


第 四 步 : 你 把 阿诺德 的 公开 一 私人 数字 (42) 和 你 的 私人 数 
字 (4) 相 乘 ， 结 果 是 共享 秘密 数字 168。 


同时 ， 阿 诺 德 用 你 的 公开 一 私人 数字 28 和 他 的 私人 数字 6 相 乘 ， 并 
令 人 惊讶 地 得 到 了 共享 秘密 数字 168。 最 终结 果 显 示 在 下 图 中 。 


公开 数字 


+ 


你 的 公开 一 私人 数字 ”阿诺德 的 公开 一 私人 数 


你 阿诺德 
国 ~ -| < 一 国 
你 的 私人 共享 窗 钥 阿诺德 的 私人 
数字 i 数字 
数字 


数字 混合 把 戏 第 四 步 : 只 有 你 和 阿 诡 德 能 得 到 共享 密 钥 数字 ， 通 过 将 途中 箭头 所 示 的 数字 
乘 。 


事实 上 ， 当 你 用 正确 的 方法 思考 时 ， 这 一 点 都 不 令 人 惊讶 。 阿 详 
德 和 你 都 制作 出 了 相同 的 共 孚 秘密 颜色 的 原因 是 ， 你 将 相同 的 三 种 原 
台 颜 色 混 合 在 了 一 起 ， 但 却 使 用 不 同 的 顺序 : 你 俩 各 目 保 留 了 一 种 私 
人 颜色 ， 把 它 和 由 其 他 两 种 颜料 组 成 的 公开 混合 颜料 组 合 在 一 起 。 同 
样 的 事 也 发 生 在 数字 上 。 你 俩 通过 将 同样 的 三 个 数 4、6 和 7 相 乘 ， 得 
到 了 相同 的 共享 密 钥 。 (你 可 以 自己 查证 ， 4x6x7=168。) 但 你 之 
所 以 能 达到 这 一 目标 ， 是 通过 用 私人 数字 4 和 由 6 乘 7 得 出 的 公开 混合 数 
字 “ 混 合 ”( 相 乘 ) 得 出 的 ， 而 阿诺德 也 宣布 了 这 个 混合 数字 。 男 一 方 
面 ， 阿 庄 德 通过 用 私人 数字 6 和 由 4 乘 7 得 出 的 公开 混合 数字 “混合 ”( 相 
乘 ) 得 出 共享 密 钥 ， 而 你 也 宣布 了 这 个 混合 数字 。 


就 和 我 们 在 颜料 混合 把 戏 中 做 的 一 样 ， 让 我 们 来 验证 伊 天 不 能 得 
到 共享 密 钥 。 每 个 公开 一 私人 数字 的 值 在 宣布 时 都 能 被 伊 天 听 到 。 她 
听 到 你 说 28， 阿 诺 德 说 42。 她 还 知道 公开 数字 是 7。 因 此 ， 如 果 伊 天 知 
道 如 何 做 除法 ， 她 就 能 马上 知道 你 所 有 的 密 钥 ， 只 需要 观察 到 28 := 7 = 
4 和 42 =7= 6 即 可 。 而 她 可 以 继续 通过 计算 4 x 6 x 7= 168 算 出 共享 密 
钥 。 不 过 ， 壹 运 的 是 ， 我 们 在 游戏 中 使 用 的 是 伪装 数学 我 们 假设 乘 
法 是 一 种 单 向 操作 ， 因 此 伊 英 不 知道 如 何 相 除 。 于 是 她 被 数字 28、42 
和 7 难 住 了 。 她 可 以 将 其 中 一 些 数 相 乘 ， 但 结果 和 共享 密 钥 无 关 。 比 
如 ， 如 果 她 将 28 x 42 = 1176， 那 束 大 错 特 错 了 。 就 和 颜料 混合 游戏 中 
她 的 结果 太 黄 了 一 样 ， 在 这 里 ， 她 的 结果 中 有 太 多 7。 共 享 密 钥 中 只 
一 个 7， 因 为 168 = 4x6x7。 但 伊 天 想 要 破解 密 钥 的 要 素 中 有 两 个 7， 
为 1 176=4x6x7x7。 而 且 她 还 没有 办 法 去 掉 多 余 的 7， 因 为 她 不 知 
道 如 何 做 除法 。 


现实 生活 中 的 颜料 混合 把 戏 


我 们 现在 已 经 讲 完 了 计算 机 在 互联 网 上 建立 共 至 密 钥 所 需 的 所 有 
基本 概念 。 使 用 数字 的 颜料 混合 机 制 的 唯一 缺陷 是 ， 它 使 用 的 是 “ 伪 凑 


数学 ”， 在 其 中 我 们 假设 没有 任何 一 方 能 做 除法 。 要 完成 整个 流程 ， 我 
们 需要 一 个 在 现实 生活 中 容易 做 到 (比如 颜料 混合 ， 但 在 实际 中 又 
不 可 能 取消 (比如 分 离 颜 料 ) 的 数学 操作 。 当 计算 机 在 现实 生活 中 进 
行 这 些 操作 时 ， 混 合 操作 就 是 离散 指数 (discrete exponentiation) ， 而 
分 离 操 作 则 被 称 为 离散 对 数 (discrete logarithm ) 。 由 于 还 没有 一 种 方 
法 能 让 计算 机 高 效 地 计算 离散 对 数 ， 离 散 指数 就 成 了 我 们 寻找 的 那 类 
单身 操作。 要 恰当 地 解释 离散 指数 ， 我 们 需要 两 个 简单 的 数学 概念 。 
我 们 还 需要 写 几 个 公式 。 如 果 你 不 喜欢 公式 ， 请 直接 忽略 余下 的 部 分 
你 几乎 了 解 了 和 这 个 主题 有 关 的 所 有 东西 。 另 外 ， 如 果 你 真 的 想 
知道 计算 机 如 何 做 这 件 神奇 的 事 ， 接 着 往 下 读 。 


我 们 需要 的 第 一 个 重要 的 数学 概念 被 称 为 钟 算 (clock 
arithmetic) 。 这 倒是 我 们 都 熟悉 的 东西 : 钟 上 有 12 个 数字 ， 每 次 当时 
针 路 过 12 时 ， 都 会 从 1 开始 重新 计数 。 一 个 从 10 点 钟 开始 、 持 续 4 小 时 
的 活动 会 在 2 点 钟 结 束 ， 也 就 是 说 ， 在 这 个 12 小 时 钟 系统 中 ，10+4 = 
2。 在 数学 中 ， 钟 算 也 是 这 样 运行 的 ， 除 了 两 个 细节 : ” (1) 钟 的 大 小 
可 以 是 任何 数 (而 非 一 个 普通 的 钟 上 熟悉 的 12 个 数字 ) ， (2) 数字 从 
0 而 不 是 从 1 开始 计数 。 


下 面 图 中 的 例子 用 的 是 大 小 为 7 的 钟 。 注 意 ， 钟 上 的 数字 是 0、1、 
2、3、4、5 和 6。 用 钟 大 小 为 7 的 钟 做 钟 算 ， 只 要 像 平 常 一 样 将 数字 相 
加 相 乘 即 可 ， 不 过 不 管 结果 如 何 ， 你 只 要 取 除 以 7 所 得 的 余数 即 可 。 计 
算 12 + 6， 我 们 首先 像 平 常 一 样 相 加 ， 得 到 18。 然 后 我 们 注意 到 18 中 
有 两 个 7 ( 即 14) ， 余 4。 因 此 最 终 答案 是 : 


12+6=4 ( 钟 大 小 为 7) 


在 下 面 的 例子 中 ， 我 们 将 钟 大 小 调 为 11。 ( 稍 后 将 讨论 到 ， 现 实 
应 用 中 的 钟 大 小 要 大 很 多 。 我 们 使 用 小 的 钟 大 小 是 为 了 让 解释 尽 可 能 
简单 。) 在 将 结果 除 以 11 后 取 余 并 不 太 难 ， 因 为 11 的 倍数 都 是 像 66 和 
88 这 样 重复 的 数 。 下 面 是 几 个 用 钟 大 小 为 11 进 行 计算 的 例子 : 


7+9+8=24=2 ( 钟 大 小 为 11) 


8x7=56=1 ( 钟 大 小 为 11) 


我 们 需要 的 第 二 个 数学 概念 是 器 函数 (power notation) 。 这 个 概 
念 一 点 也 不 花哨 : 吏 是 写 下 许多 相同 数字 相 乘 的 快捷 方法 。 和 写 下 6 x 
6 x 6 x 6 不 同 的 是 ， 你 可 以 写成 6， 这 了 束 是 指 6 乘 以 本 号 4 次 。 你 可 以 将 
贿 函 数 和 钟 算 结 合 起 来 。 比 如 : 


34=3x3x3x3=81=4 ( 钟 大 小 为 11) 
72=7x7=49=5 ( 钟 大 小 为 11) 


下 页 的 表格 显示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 央 。 这 在 我 
们 将 要 人 研究 的 例子 中 非常 有 用 。 在 继 纺 > 请 你 确保 自 
张 表 格 的 生成 方式 。 让 我 们 来 看 看 最 后 一 栏 。 这 一 栏 的 第 一 项 是 6， 也 
瓯 是 61。 下 一 项 代表 62， 即 36， Be i 
33 大 3， 因 此 这 一 项 是 3。 要 计算 这 一 栏 的 第 三 项 ， el 
要 计算 63 = 6 x6x6， 但 有 个 更 简单 的 方法 。 我 们 已 经 用 目 己 感 兴 
的 钟 大 小 计算 了 62， 结 果 是 3。 要 得 到 63， 我 们 只 需要 将 先 0 


6。 也 就 是 3x 6 = 18 =7 ( 钟 大 小 为 11) 。 下 一 项 是 7x6=42=9 ( 钟 
大 小 为 11) ， 依 此 类 推 ， 直 到 该 栏 最 后 一 项 。 


最 后 ， 我 们 终于 要 准备 建立 一 个 计算 机 在 现实 生活 中 使 用 的 共享 


密 钥 了 。 和 之 前 一 样 ， 你 和 阿诺德 将 尝试 分 享 一 个 密 钥 ， 而 伊 英 窃 听 
并 试图 算出 密 钥 。 


第 一 步 : 你 和 阿诺德 各 目 单 独 移 择 一 个 私人 数 子 。 
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这 张 表 显 示 了 钟 大 小 为 11 时 数字 2、3 和 6 的 前 10 个 宫 。 正 如 上 文 所 解释 的 ， 每 个 项 都 能 通过 一 
些 非 常 简单 的 算术 从 上 一 项 中 算出 。 


为 保证 数学 尽 可 能 简单 ， 我 们 将 在 这 个 例子 中 使 用 非常 小 的 数 

。 因此， 假设 你 选择 8 作为 私人 数字 ， 而 阿 诡 德 选择 9。 这 两 个 数字 
0 征 共 皇 密 铀 ， 而 是 像 你 在 颜料 混合 Se 
人 人 颜色， 这些 数 子 将 被 用 作 “ 混 合 ”一 个 共 译 密 钥 的 成 分 


第 二 步 : 你 和 阿 话 德 公开 束 两 个 公开 数字 达成 一 致 : 钟 大 小 
(本 例 中 使 用 11) 和 男 一 个 被 称 为 基数 的 数字 〈 选 2 为 基数 ) 。 


这 些 公 开 数 子 一 一 11 和 2 一 一 像 公 开颜 色 一 样 ， 你 和 阿诺德 在 闫 料 
混合 把 戏 一 开始 就 对 此 达成 了 一 怪 。 注意 ， 闫 料 混合 类 比 与 本 例 有 抬 
不 同 : 在 颜料 混合 中 ， 我 们 只 需 一 种 公开 颜色 ， 而 在 这 个 例子 中 ， 我 
们 需要 两 个 公开 数字 。 


第 三 步 : 通过 使 用 才 符 号 和 钟 算 ， 你 和 阿 诡 德 各 目 将 自己 的 
私人 数字 和 公开 数字 相 混 ， 分 别 得 到 一 个 公开 一 私人 数字 
(public-private number, PPN) 。 


具体 来 说 ， 混 合 是 按照 公式 来 完成 的 : 
PPN = base 私 人 数字 〈 钟 大 小 ) 


个 公式 用 文字 写 出 来 可 能 会 显得 有 点 诡异 ， ea 
单 。 在 我 们 的 周 了 中 我 们 能 通过 参考 上 一 页 的 表格 来 得 出 答 


你 的 PPN = 28 = 3 ( 钟 大 小 为 11) 
阿诺德 的 PPN = 29 = 6 ( 钟 大 小 为 11) 


在 这 一 步 之 后 ， 你 可 以 在 下 页 的 图 中 查看 这 一 步 。 这 些 公开 一 私 
人 数字 正 相 当 于 你 在 颜料 混合 把 戏 第 三 步 中 制作 的 : ， 私人 混合 颜 
色 ”。 在 那 一 步 中 ， 你 将 一 桶 公开 颜色 和 一 部 分 你 的 私人 颜色 相 混合 ， 
制作 你 的 公开 一 人 在 这 里 ， 你 使 用 只 符号 和 钟 算 将 自己 
的 私人 数字 和 公开 数字 相 混 合 


第 四 步 : 你 和 阿诺德 各 单独 获得 对 方 的 公开 一 私人 数字 ， 
再 和 目 己 的 私人 数字 相 混合 
这 可 以 按照 下 面 的 公式 完成 : 
共享 密 钥 = 其 他 人 的 PPN 私 人 数字 ( 钟 大 小 ) 


和 前 面 的 公式 一 样 ， 、 显得 有 点 诡异 ， 但 通过 参考 
前 一 页 的 表格 ,很 容易 束 能 得 到 管 


你 的 共享 密 钥 = 68= 4 ”( 钟 大 小 为 11) 
阿诺德 的 共享 密 钥 = 39= 4 ”( 钟 大 小 为 11) 
最 终 解决 方案 显示 在 下 一 节 的 图 中 。 
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你 的 公开 一 私人 数字 阿诺德 的 公开 一 私人 数字 


阿诺德 


你 的 私人 阿诺德 的 私人 
数字 数字 


现实 生活 数字 混合 第 三 步 : 任何 想 要 公开 一 私人 数字 (3 和 6) 的 人 一 一 使 用 大 和 钟 算计 算得 
出 一 一 都 可 以 获取 到 。3 F 在 的 22" 提醒 了 我 们 3 是 如 何 计算 的 ， 但 3=22 使 用 的 钟 大 小 为 11 这 个 
事实 却 并 未 公开 。 类 似 的 ，6 下 面 的 “22" 也 仍然 保持 私密 。 


至 密 铀 相同 (这 个 例 于 是 是 
4) 。 取 得 这 个 结 采 依靠 了 例子 中 的 一 些 复杂 算术 ， 但 基本 概念 和 前 面 
ed ， 但 你 和 阿诺德 都 使 用 
了 相同 的 成 分 ， 因 此 也 得 到 了 相同 的 共有 至 密 钥 。 


和 这 个 把 戏 的 早 前 版 本 一 样 ， 伊 天 被 排除 在 外 。 她 知道 这 两 个 公 

开 数 字 (2 和 11) ， 她 也 知道 这 两 个 公开 一 私人 数字 (3 和 6) 。 但 她 不 

能 使 用 任何 知识 来 计算 共享 密 钥 数字 ， 因 为 她 不 能 获取 你 和 阿诺德 持 
有 的 秘密 成 分 (私人 数字 ) 。 


实际 中 的 公 钥 加 密 


颜料 混合 把 戏 的 最 终 版 本 一 运用 戎 和 钟 算 混 合 数字 一 一 束 是 计 
算 机 在 互联 网 上 建立 共享 密 钥 的 实际 方法 之 一 。 本 章 描 述 的 方法 被 称 
为 迪 菲 一 赫 尔 受 密 钥 交 换 机 制 。 这 一 机 制 以 怀特 菲 德 . 迪 菲 (Whitfield 
Diffie) 和 马丁 . 赫 尔 曼 (Martin Hellman) 的 名 字 命 名 ， 他 俩 于 1976 年 
首次 发 表 了 这 一 算法 。 每 次 你 访问 一 个 安全 网 站 (以 “https:” 而 
非 “http:” 开 头 ) ， 你 的 计算 机 和 其 通信 的 网 站 服务 器 之 间 都 会 建立 一 
个 共享 密 钥 ， 使 用 的 方法 是 迪 菲 一 赫 尔 曼 机 制 或 工作 原理 类 似 的 替代 
方法 之 一 。 而 一 旦 建立 了 共享 密 钥 ， 这 两 台电 脑 就 能 使 用 之 前 描述 的 
相 加 算法 的 变 体 对 所 有 通信 进行 加 密 。 
公开 数字 


你 的 公开 一 私人 阿诺德 的 公开 一 私人 
数字 数字 


可 阿诺德 


你 的 私人 


数字 数字 


现实 生活 数字 混合 第 四 步 :， 只 有 你 和 阿诺德 能 得 到 共享 密 钥 数字 ， 通 过 使 用 寡 和 钟 界 计算 将 
如 箭头 所 示 的 元 素 组 合 起 来 。 


还 有 很 重要 的 一 点 值得 注意 ， 当 巡 菲 一 医 尔 曼 机 制 在 现实 中 运用 
时 ， 实 际 涉 及 的 数字 要 远 比 我 们 在 例子 中 使 用 的 数字 大 。 我 们 使 用 的 
钟 大 小 很 小 (11) ， 因 此 计算 起 来 就 很 简单 。 但 如 果 你 选择 的 公开 钟 
大 小 很 小 ， 那 么 可 能 的 私人 数字 也 会 很 小 (因为 你 只 能 使 用 比 钟 大 小 
小 的 私人 数字 ) 。 而 这 也 意味 着 有 人 可 以 使 用 计算 机 试 出 所 有 可 能 的 
私人 数字 ， 直 到 找到 一 个 数字 生成 你 的 公开 一 私人 数字 。 在 上 面 的 例 
子 中 ， 只 有 11 个 可 能 的 私人 数字 ， 因 此 这 个 系统 非常 轻易 吏 能 被 破 
解 。 相 反 ， 巡 菲 一 笑 尔 曼 机 制 在 现实 中 运用 时 通常 会 使 用 有 几 百 个 数 
位 长 的 钟 大 小 ， 这 让 可 能 的 私人 数字 多 得 令 人 不 可 想象 比 一 万 亿 的 
一 万 亿 次 方 还 多 得 多 ) 。 即 便 如 此 ， 也 需要 小 心 选取 公开 数字 ， 以 确 
傈 它们 具有 正确 的 数学 性 质 一 一 如 采 你 感 兴趣 的 话 ， 请 看 下 页 的 文字 
框 。 


在 为 迪 菲 一 赫 尔 曼 机制 选择 一 个 钟 大 小 和 基数 时 ， 钟 大 小 和 基数 必须 满足 特定 的 数学 性 质 。 


本 章 描述 的 迪 菲 一 赫 尔 曼 方 法 只 是 通过 (电子 ) 明信片 通信 的 多 
种 绝妙 技巧 之 一 。 计 算 机 科学 家 们 称 迪 菲 一 赫 尔 曼 方法 为 密 钥 交换 算 
法 (key exchange algorithm) 。 其 他 公 钥 算法 的 运作 方式 不 同 ， 能 让 
你 使 用 接收 方 宣布 的 公开 信息 ， 直 接 向 潜在 的 接收 方 加 密 一 条 消息 。 
相反 ， 密 钥 交换 算法 能 让 你 使 用 来 自 接收 方 的 公开 信息 ， 建 立 一 个 共 


享 密 钥 ， 但 加 密 过 程 通过 加 法 把 戏 来 完成 。 对 于 互联 网 上 绝 大 部 分 通 
信 而 言 ， 后 面 的 选项 一 一 我 们 在 本 章 中 了 解 到 的 这 种 方法 一 一 要 更 容 
易 让 人 接受 ， 因 为 它 需 要 的 计算 能 力 要 少 很 多 。 


但 也 有 一 些 程序 需要 用 到 完整 的 公 钥 加 密 。 这 类 程序 中 最 有 趣 的 
可 能 要 算数 字 签 名 了 ， 我 们 将 在 第 九 章 谈 到 它 。 在 你 阅读 第 九 章 时 会 
发 现 ， 完 整 版 公 钥 加 密 的 思想 类 似 于 我 们 已 经 了 解 到 的 : 机密 信息 和 
公开 信息 用 一 种 在 数学 上 不 可 逆 的 方式 “混合 ”在 一 起 ， 就 像 混 合 在 一 
起 的 颜料 一 样 ， 再 也 分 不 开 。 最 著名 的 公 钥 加 密 系 统 是 RSA， 这 个 名 
字 由 首次 发 表 该 系统 的 三 位 发 明 者 姓 的 首 字母 组 合 而 成 : 罗 纳 德 . 李 维 
斯 特 (Ronald Rivest) 、 阿 迪 : 沙 米尔 (Adi Shamir) 和 雷 奥 纳 德 : 阿 德 
尔 曼 (Leonard M.Adlemen) 。 第 九 章 用 RSA 作 为 解释 数字 签名 如 何 运 
行 的 主要 例子 。 


在 这 些 早期 公 钥 算法 发 明 的 背后 ， 都 有 一 个 迷人 而 复杂 的 故事 。 
迪 菲 和 炙 尔 受 的 确 是 发 表 迪 菲 一 赫 尔 曼 机 制 的 第 一 批 人 ， 时 间 走 1976 
年 。 李 维 斯 等 、 沙 米尔 和 阿 德尔 受 也 的 确 是 发 表 RSA 的 第 一 批 人 ， 时 
间 是 1978 年 。 但 这 并 不 是 故事 的 全 部 ! 人 们 后 来 发 现 ， 英 国政 府 在 数 
年 前 就 已 经 知道 类 似 系统 。 不 注 的 是 ， 那 些 发 明 迪 菲 一 赫 尔 曼 机 制 和 
RSA 的 先驱 们 古 英 国政 府 通信 实验 室 GCHQ 的 数学 家 。 他 们 工作 的 结 
果 补 记录 在 内 部 机 密 文件 中 ， 直 到 1997 年 才 解 密 。 


RSA、 迪 菲 一 赫 尔 受 机 制 和 其 他 公 钥 加 密 系 统 不 仅仅 是 绝妙 的 思 
想 。 它 们 还 发 展 成 了 商业 技术 和 互联 网 标准 ， 对 商业 和 个 人 有 者 极其 
重要 的 意义 。 没 有 公 钥 加 密 ， 我 们 每 天 使 用 的 绝 大 部 分 在 线 交 易 都 不 
可 能 安全 地 完成 。 RSA 的 发 明 者 在 20 世 纪 70 年 代为 自己 的 系统 申请 了 
专利 ， 而 他 们 的 专利 直到 2000 年 年 末 才 失效 。 在 专利 失效 的 那天 晚 
上 上 ， 美 国 旧 金山 市 的 美国 首 乐 大 剧院 举行 了 一 次 庆祝 晚会 一 一 也 许 是 
为 庆祝 公 钥 加 密 将 永久 为 人 们 服务 这 一 事实 。 


1. ”对 于 了 解 计算 机 数字 系统 的 人 而 言 ， 我 在 这 里 说 的 是 小 数位 数 ， 而 非 二 进 制 数 。 对 
于 了 解 对 数 的 人 而 言 ， 将 二 进 制 数 转化 为 小 数位 数 的 转换 比例 30% 来 自 于 log10% 0.3。 


第 五 章 ” 纠 销 码 一 一 目 纠正 的 第 误 


Eg 


告诉 一 个 人 他 犯 了 错 是 一 回 事 ， 让 他 掌握 真 
E 则 十 男 一 码 事 。 


[ea 


约翰 :洛克 (John Locke) ， 
《人 类 理智 论 》 (Essay Concerning Human 
Understanding) 


如 今 ， 我 们 已 习惯 于 在 有 需要 时 随时 使 用 计算 机 。20 世 纪 40 年 代 
在 贝尔 电话 公司 实验 室 工 作 的 研究 员 理 查 德 . 汉 明 (Richard 
Hamming) 就 没 这 么 幸运 了 : 其 他 部 门 使 用 着 他 所 需要 的 公司 计算 
机 ， 只 有 周末 才 轮 到 他 用 。 因 此 ， 你 可 以 想象 ， 由 于 计算 机 在 读 取 目 
喘 数 据 时 出 错 从 而 导致 频 迷 朋 涡 后 ， 他 有 多 么 钥 形 。 汉 明 谈 到 这 个 问 
题 时 是 这 样 说 的 : 


我 要 轮 两 周 才 能 进去 一 次 ， 却 发 现 我 所 有 的 东西 都 被 清空 了 ， 
什么 部 没 得 到 。 我 真 的 很 生气 ， 因 为 我 想 要 这 些 管 案 ， 而 且 还 浪费 
两 个 周末 的 时 间 。 于 是 我 说 :“ 去 他 的 ， 如 果 计 算 机 能 侦 测 到 错 
误 ， 为 什么 它 不 能 对 错误 定位 并 进行 纠正 ? ” 


要 说 明 发 明 纠 错 码 的 必要 性 ， 还 有 另外 几 起 很 鲜明 的 例子 。 汉 明 
很 快 束 创造 了 第 一 批 纠 错 码 ， 一 种 近乎 神奇 的 能 侦 测 并 纠正 计算 机 数 
据 中 错误 的 算法 。 没 有 纠 错 码 ， 我 们 的 计算 机 和 通信 系统 会 比 现在 慢 
很 多 ， 功 能 上 弱 许 多 ， 可 靠 性 也 会 差 很 多 。 


错误 侦 测 及 纠正 的 需求 


计算 机 有 三 项 基本 工作 。 最 重要 的 工作 十 执行 计算 ， 即 给 予 计算 
机 一 些 输入 数据 ， 计 算 机 必须 用 某 种 方法 转化 数据 ， 并 得 出 一 个 有 用 
的 答案 。 但 如 条 没 有 计算 机 执行 的 另外 两 项 非常 重要 的 工作 : 存储 数 
据 和 传输 数据 ， 计 算 答 案 的 能 力 基本 上 也 没 用 。 (计算 机 通常 在 内 存 
和 磁 强 驱动 器 上 存储 数据 ， 基 本 上 是 通过 互联 网 传输 数据 。) 要 深入 
理解 这 一 点 ， 想 象 一 台 既 不 能 存储 也 不 能 传输 信 


思 的 计算 机 。 这 样 的 计算 机 目 然 不 会 有 什么 用 。 的 确 ， 你 可 以 做 
一 些 复杂 计算 《比如 ， 准 备 一 份 复 杂 的 财务 报表 ， 详 细 说 明 公 司 预 
算 ) ， 但 你 不 能 将 结 采 发 送 给 同事 ， 甚 至 不 能 保存 结 采 以 便 返 回 继续 
操作 。 因 此 ， 传 输 和 存储 数据 对 现代 计算 机 是 真正 的 至 关 重 要 。 


但 传输 和 存储 数据 要 面 临 一 个 巨大 挑战 : 数据 必须 丝 蝶 无 差 一 一 
因为 在 许多 情况 下 ， 哪 人 一 丁点 错误 也 会 让 数据 变 得 宫 无 用 处 。 作 为 
人 ， 我 们 也 熟悉 在 不 出 错 的 情况 下 存储 和 传输 信息 的 需求 。 比 如 ， 如 
果 你 写 下 某 人 的 电话 号 码 ， 按 正确 的 顺序 无 误 地 记录 下 每 位 数 至 关 重 
要 。 哪 怕 其 中 有 一 位 数 出 错 ， 那 个 电话 号 码 对 你 或 其 他 人 都 膏 无 用 
处 。 在 一 些 情况 中 ， 数 据 出 错 的 后 果 要 比 盈 无 用 处 更 糟 。 比 如 ， 存 依 
一 个 计算 机 软件 的 文件 中 有 一 个 错误 ， 这 会 导致 程序 般 溃 或 让 程序 做 
一 些 原 本 不 应 该 做 的 事 。 (程序 甚至 可 能 会 删除 一 些 重要 文件 ， 或 在 
你 保存 工作 前 有 裔 演 。) 而 在 一 些 计 算 机 化 的 金融 记录 中 出 错 ， 可 能 会 
导致 实际 的 金钱 损失 。 (假如 你 以 为 自己 在 买 每 股 5.34 美 元 的 股票 ， 
而 这 只 股票 的 实际 价格 是 每 股 8.34 美 元 。) 


不 过 ， 人 们 需要 存储 的 无 误 信 息 相对 较 少 ， 而 且 在 知道 一 些 信 息 
一 一 如 银行 帐号、 密码 、 电 子 邮 件 地 址 等 一 一 很 重要 的 情况 下 ， 通 过 
仔细 检查 避免 错误 也 不 和 是 太 难 。 而 另 一 方面 ， 计 算 机 村 无 误 地 存储 和 


传输 的 信息 量 绝对 是 海量 。 为 了 让 你 对 信息 量 级 有 概念 ， 想 想 下 列 情 
形 。 假 设 你 有 一 个 存储 容量 是 100 GB 的 计算 设备 。 (在 写作 本 书 时 ， 
这 是 低 价 笔记 本 电脑 的 标准 容量 。) 这 100 GB 相当 于 1 500 万 页 文本 。 
因此 ， 即 便 计算 机 存储 系统 每 100 万 页 犯 一 个 错误 ， 在 设备 容量 填 满 时 
(平均 ) 也 会 有 15 个 错误 。 这 一 情况 也 适用 于 传输 数据 : 如 果 你 下 载 
一 个 20 兆 的 软件 ， 你 的 计算 机 每 接收 100 万 个 字符 就 会 出 错 一 次 ， 下 载 
的 软件 中 也 会 有 逾 20 个 错误 一 一 在 你 不 曾 预 料 到 的 情况 下 ， 每 一 个 错 
误 都 有 可 能 导致 成 本 巨大 的 月 省。 


这 个 故事 的 教训 是 ， 对 于 计算 机 而 言 ， 精 确 度 达到 99.999 9% 也 还 
是 不 够 好 。 计 算 机 必须 能 在 存储 和 传输 数 十 亿 块 信息 的 情况 下 ， 不 犯 
任何 一 个 错误 。 但 和 其 他 设备 一 样 ， 计 算 机 也 必须 处 理 通信 问题 。 电 
话 就 是 个 好 例子 : 显然 电话 不 能 完美 地 传输 信息 ， 因 为 电话 对 话 经 常 
要 遭遇 失真 、 静 电 噪 声 或 其 他 类 型 的 噪声 。 但 电话 并 不 是 遭遇 这 类 情 
况 的 唯一 设备 : 电线 受 所 有 种 类 的 波动 影响 ， 无 线 通 信 无 时 无 刻 不 受 
干扰 ; 硬盘 、CD (激光 唱 盘 ) 和 DVD (数字 视频 光盘 ) 等 物理 媒体 会 
由 于 灰尘 或 其 他 物理 干扰 的 影响 ， 被 划 伤 、 受 损 或 不 能 读 取 。 面 临 如 
此 显然 的 通信 和 错误， 我 们 怎么 能 希望 实现 数 十 亿 分 之 一 的 错误 率 呢 ? 
本 章 将 揭示 让 这 一 奇迹 发 生 的 绝妙 计算 机 科学 背后 的 思想 。 结 果 证 
明 ， 如 果 你 运用 正确 的 把 戏 ， 即 便 是 极端 不 可 靠 的 通信 频道 也 可 以 以 
极 低 的 错误 率 传输 数据 。 而 且 这 个 错误 率 是 如 此 之 低 ， 以 至 于 在 实际 
当中 ， 错 误 基 本 上 完全 被 消除 了 。 


| 重复 把 戏 


要 通过 一 个 不 可 靠 的 频道 进行 可 靠 的 通信 ， 其 中 最 根本 的 把 戏 走 
我 们 都 熟悉 的 :， 要 确保 一 些 信息 正确 地 传输 ， 你 只 需 重复 儿 次 该 信 
已 。 如 果菜 人 在 电话 连接 很 糟 料 的 情况 下 ， 念 给 你 听 一 个 电话 号 码 或 


银行 账号 ， 你 极 有 可 能 会 要 求 对 方 至 少 重复 一 次 ， 以 便 确 认 号 码 无 


误 。 


计算 机 也 能 做 同样 的 事情 。 假 设 银行 的 一 台 计 算 机 试图 通过 互联 
网 把 你 的 账户 余额 传 给 你 。 你 的 账户 余额 是 5 213.75 美 元 ， 但 不 驻 的 
是 ， 网 络 不 稳定 ， 每 一 个 数字 都 有 20% 的 概率 变 成 其 他 东西 。 因 此 ， 
当 你 的 账户 余额 第 一 次 传输 过 来 时 ， 显 示 的 可 能 是 5 293.75 美 元 。 很 显 
然 ， 你 没 办 法 知道 余额 是 否 正 确 。 所 有 的 数字 都 有 可 能 正确 ， 但 其 中 
一 个 或 以 上 的 数字 可 能 出 错 ， 而 你 没有 办 法 分 辨 。 但 通过 运用 重复 把 
戏 (the reprtition trick) ， 你 能 很 好 地 推测 出 真正 的 余额 。 假 设 你 请 求 
传 出 余额 5 次 ， 并 收 到 了 以 下 反馈 : 


传输 1: $5293:75 

传输 2: $5213:75 

传输 3: $5213:11 

传输 4: $5443:75 

传输 5: $7218:75 
注意 ， 其 中 一 些 传输 不 止 一 位 数 出 错 ， 也 有 一 次 传输 (传输 2) 没 
有 出 现 错误 。 关 键 点 在 于 ， 你 没 办 法 知道 哪儿 有 错 ， 因 此 也 没 办 法 将 
传输 2 挑选 为 正确 的 传输 。 相 反 ， 你 可 以 做 的 事情 就 是 单独 检查 每 个 数 


字 ， 寻 找 同 一 数字 的 所 有 传输 ， 然 后 选 出 出 现 最 频 索 的 那个 值 。 下 面 
列 出 了 所 有 传输 项 ， 最 末尾 是 出 现 频率 最 高 的 数字 : 


传输 1: $5293:75 


传输 2: $5213:75 


传输 3: $5213:11 
传输 4: $5443:75 


传输 5: $7218:75 


出 现 频 率 最 高 的 数字 : $5213:75 


要 把 这 个 概念 完全 和 弄 清 楚 ， 让 我 们 来 看 些 例子 。 检 查 传输 中 的 第 
一 位 数 ， 在 传输 1~4 中 ， 第 一 位 数 都 是 5， 而 传输 5 的 第 一 位 数 是 7。 换 
句 话 说， 第 一 位 数 在 4 次 传输 中 是 “5”， 而 只 在 一 次 传输 中 是 “7”。 因 
此 ， 尽 管 你 不 能 完全 肯定 ， 但 你 银行 余额 第 一 位 数 的 值 最 有 可 能 是 5。 
转 到 第 二 位 数 ， 我 们 看 到 2 出 现 了 4 次 ， 而 4 出 现 了 1 次 ， 因 此 2 最 有 可 能 
是 第 二 位 数 。 第 三 位 数 有 点 有 趣 ， 因 为 有 三 种 可 能 性 : 1 出 现 了 3 次 ，9 
出 现 了 1 次 ，4 出 现 了 1 次 。 但 同样 的 原则 也 适用 ，1 是 最 有 可 能 为 真 的 
值 。 通 过 对 所 有 数字 使 用 这 种 方法 ， 你 可 以 得 到 完整 银行 余额 的 最 终 
推测 : 5213.75 美 元 ， 而 这 也 正 是 正确 的 值 。 


这 种 方法 很 简单 。 我 们 已 经 解决 这 个 问题 了 吗 ? 在 某 种 程度 上 ， 
是 的 。 但 你 也 许 会 对 两 件 事 感到 不 满 。 首 先 ， 这 个 信道 的 错误 率 只 
20%， 而 在 一 些 情况 中 ， 计 算 机 需要 在 错误 率 远 高 于 20% 的 信道 中 通 
信 。 其 次 ， 也 许 要 更 严肃 些 ， 上 面 例 子 的 最 终 答 案 恰 好 是 正确 的 ， 但 
不 能 保证 答案 会 永远 都 正确 : 它 只 是 一 个 推测 ， 基 于 我 们 的 看 法 
认为 它 才 是 最 有 可 能 为 真 的 银行 余额 。 幸运 的 是 ， 这 两 件 事 都 很 容易 
处 理 : 我 们 只 需 增 加 重新 传输 的 次 数 ， 直 到 可 靠 性 高 到 让 我 们 满意 为 
上 上 上 。 


比如 ， 假 设 最 后 一 个 例子 中 的 错误 率 是 50% 而 不 是 20%。 你 可 以 
要 求 银行 传输 1 000 次 余额 ， 而 不 是 5 次 。 让 我 们 集中 关注 第 一 位 数 ， 
因为 其 他 数 的 工作 原理 都 一 样 。 由 于 错误 率 是 50%， 大 约 有 一 半 的 数 
会 正确 地 传输 为 5， 但 另 一 半 会 变 成 其 他 随机 值 。 因 此 5 会 出 现 约 500 


次 ， 其 他 每 个 数 (0~4 和 6~9) 都 会 出 现 50 次 左 石 。 数 学 家 们 能 计算 出 
某 个 数 出 现 的 次 数 比 5 多 的 概率 : 即便 使 用 这 个 方法 每 秒 传输 一 个 新 的 
银行 余额 ， 我 们 也 得 等 上 数 万 亿 年 才能 猜 错 银行 余额 。 这 个 故事 的 重 
点 在 于 ， 通 过 重复 一 条 不 可 靠 的 消 轧 足够 多 次 ， 你 可 以 让 消息 的 可 靠 
性 高 到 让 你 满意 为 止 。 (在 这 些 例子 中 ， 我 们 假设 错误 随机 发 生 。 相 
反 ， 如 采 一 个 恶意 实体 故意 干扰 传输 ， 并 选择 制造 哪些 错误 ， 重 复 把 
戏 都 要 不 安全 得 多 。 后 面 介绍 的 一 些 代码 在 对 抗 这 类 恶意 攻击 时 都 表 
现 展 好。) 


因此 ， 通 过 使 用 重复 把 戏 ， 不 可 靠 通 信 的 问题 能 够 被 解决 ， 错 误 
率 基 本 上 能 伞 消 炙 。 不 辛 的 是 ， 重 复 把 戏 对 于 现代 计算 机 系统 来 说 还 
不 够 好 。 当 传输 像 银行 余额 这 样 的 小 块 数据 时 ， 重 新 传输 1 000 次 耗费 
并 不 多 ,但 在 下 载 一 个 大 型 软件 (假设 有 200 兆 ) 时 ， 显 然 传输 1 000 
份 该 软件 完全 不 现实 。 很 明显 ， 计 算 机 需要 使 用 一 些 比 重复 把 戏 更 成 
熟 的 方法 。 


I 风 余 把 戏 


即便 计算 机 不 使 用 上 面 描 述 到 的 重复 把 戏 ， 我 们 也 在 本 草 一 开始 
介绍 它 ， 以 便 让 我 们 能 了 解 实际 生活 当中 可 靠 通 信和 最 基本 的 原则 。 这 
条 基本 原则 和 是， 你 不 能 只 发 送 原 始 消息 : 你 要 发 送 一 些 多 余 的 东西 以 
增加 可 靠 性 。 在 重复 把 戏 的 例子 中 ， 你 发 送 的 额外 东西 就 是 更 多 份 原 
台 消 思 。 但 实际 情况 征 ， 要 提高 可 靠 性 ， 你 还 有 其 他 许多 多 余 的 东西 
可 以 发 送 。 计 算 机 科学 家 们 称 这 些 多 余 的 东西 为 “ 见 余 ”。 有 时 候 ， 元 
余 被 附加 在 原始 消息 上 。 在 研究 下 一 个 把 戏 〈 校 验 和 把 戏 ) 时 ， 我 们 
会 看 到 这 种 “附加 ”技术 。 但 首先 ， 我 们 要 研究 男 一 种 添加 见 余 的 方 
法 。 这 种 方法 实际 上 十 把 原始 请 妃 转 换 成 一 条 更 长 的 元 余 消 息 一 一 原 
台 消 筷 会 被 删除 ， 取 而 代 之 的 是 一 条 更 长 的 不 同 消 思 。 当 收 到 更 长 的 


消 思 时， 你 束 能 将 其 转换 回 原始 消息 ， 即 便 这 条 元 余 消 县 在 糟糕 的 信 
道中 传输 时 被 破坏 了 。 我 们 将 这 种 方法 简单 地 称 为 元 余 把 戏 。 


举 个 例子 更 容易 说 清 。 之 前 我 们 尝试 将 你 的 银行 余额 5 213.75 美 元 
通过 一 条 不 可 靠 的 信道 传输 ， 这 条 信道 有 2096 的 概率 随机 蔡 换 数字 。 
和 尝试 只 传输 “S5 213.75” 不 同 的 是 ， 让 我 们 把 这 个 数字 转换 成 一 条 包 
含 相同 信息 的 更 长 的 (因此 也 是 “ 宛 余 的 ”) 消息 。 在 这 个 例子 中 ， 我 
们 用 英语 单词 简单 地 把 余额 拼 出 来 


five two one three point seven five 


我 们 再 假设 ， 由 于 信道 粳 粹 ， 这 条 消 居 中 约 20% 的 字符 会 变 成 其 
他 随机 字符 。 这 条 消 居 最 终 可 能 变 成 : 


fiqe kwo one thrxp point sivpn fivg 
尽管 读 起 来 有 点 讨厌 ， 但 我 认为 ， 任 何 知道 喘 语 的 人 都 能 猜 出 ， 


这 条 被 破坏 的 消息 代表 真正 的 银行 余额 5 213.75 美 元 ， 这 点 你 应 该 会 赞 
同 。 


关键 在 于 ， 因 为 我 们 使 用 了 一 条 元 余 消 上 息 ， 对 消 恩 中 的 任何 单个 
变化 进行 可 靠 侦 测 及 纠正 变 得 可 行 。 如 琳 我 告诉 你 ， 字 母 “fige” 代 表 英 
语 中 的 一 个 数字 ， 且 只 有 一 个 字母 被 蔡 换 了 ， 你 绝对 能 肯定 原始 消 恩 
中 的 单词 是 “five"”， 因 为 除 此 以 外 再 也 没有 英语 数字 能 通过 替 
换 “fiqe" 中 一 个 字母 获得 了 。 与 此 形成 鲜明 对 比 的 是 ， 如 采 我 告诉 你 ， 
数字 “367” 代 表 了 一 个 数 ， 但 其 中 一 个 数字 被 蔡 换 了 ， 你 没 办 法 知道 原 
始 数 子 古 多 少 ， 因 为 这 条 消 忌 中 没有 风 余 。 


尽管 我 们 还 没 弄 清 见 余 究竟 是 如 何 工作 的 ， 但 却 已 经 知道 它 和 让 
冰 恩 变 长 有 关 ， 消 奶 的 每 一 部 分 部 应 该 符合 某 种 已 知 模式 。 通 过 这 种 
方法 ， 任 何 变化 都 能 首先 被 识别 (因为 并 不 符合 已 知 模式 ) ， 然 后 被 


纠正 (通过 改变 错误 使 其 符合 模式 ) 。 计 算 机 科学 家 称 这 些 已 知 模式 
为 “代码 字 ”(code words) 。 在 上 面 的 例子 中 ， 代 码 字 就 是 用 英语 写 的 


DU BR A 
数字 ， 如 “one>” < “two” & “three” 等 8 


现在 是 时 候 解 释 宛 余 把 戏 (the redundany trick) 究竟 是 如 何 运作 
的 了 。 消 息 由 “符号 ” 计算 机 科学 家 是 这 么 称呼 的 组 成 。 在 我 
们 这 个 简单 例子 中 ， 符 号 是 数字 0~9 (我 们 会 忽略 美元 符号 以 及 小 数 
点 ， 让 事情 变 得 更 简单 ) 。 每 个 符号 都 被 指定 了 一 个 代码 字 。 在 这 个 
例子 中 ， 符 号 1 被 指定 的 代码 字 是 “one”，2 被 指定 的 代码 字 是 “two”， 
依 此 类 推 。 


要 传输 一 条 信息 ， 你 首先 要 找 出 每 个 符号 ， 并 将 符号 转译 成 对 应 
的 代码 字 。 其 次 ， 你 将 转换 的 消息 通过 不 可 靠 信 道 发 送 。 当 消息 被 接 
收 到 时 ， 你 查看 消息 的 每 个 部 分 ， 检 查 其 是 否 为 有 效 的 代码 字 。 如 采 
它 是 有 效 的 (如 "five”) ， 你 只 需 将 其 转换 为 相应 的 符号 (如 5) 即 
可 。 如 果 其 不 是 有 效 的 代码 字 〈 如 “fiqe") ， 你 要 找 出 其 和 哪个 代码 字 
最 匹配 (这 个 例子 中 就 是 “five”) ， 并 将 那个 无 效 代 码 字 转换 成 相应 的 
符号 (也 就 是 5) 。 使 用 这 些 代码 的 例子 如 下 图 所 示 : 


编码 


fiqe 一 ”~ 5 (最 接近 的 匹配 ) 


Sa 


twe ” 2 (最 接近 的 匹配 
使 用 英文 字 表 示 数 字 的 代码 


这 就 是 全 部 过 程 。 实 际 上 ， 计 算 机 在 存储 和 传输 信息 时 会 一 直 用 
到 这 个 元 余 把 戏 。 和 我 们 在 例子 中 使 用 的 英语 相 比 ， 数 学 家 们 已 经 找 
到 了 更 漂亮 的 代码 字 ， 但 可 靠 计算 机 通信 的 工作 原理 仍然 相同 "下 页 
的 图 就 列举 了 一 个 真实 例子 。 这 个 例子 被 计算 机 科学 家 们 称 为 〈7， 
4) 汉 明 代码 (Hamming code) ， 这 是 理 查 德 : 汉 明 于 1947 年 在 贝尔 实 
验 室 发 明 的 代码 之 一 ， 为 了 处 理 之 前 说 过 的 周末 计算 机 般 溃 。 (由 于 
贝尔 实验 室 的 要 求 ， 汉 明 申 请 了 这 些 代 码 的 专利 ， 直 到 3 年 后 的 1950 年 
才 发 表 。) 和 我 们 在 前 面 用 到 的 代码 相 比 ， 汉 明代 码 最 明显 的 区 别 是 
所 有 事情 都 通过 0 和 1 完成 。 因 为 计算 机 存储 和 传输 的 每 一 块 数据 都 会 
被 转化 为 0 和 1 的 字符 串 ， 现 实生 活 中 使 用 的 所 有 代码 也 限 用 这 两 个 数 


ee 


子 。 


编码 
0000 一 ”~ 0000000 
0001 一 0001011 
0010 一 ”~ 0010111 
0011 一 ”~ 0011100 


0100 一 ”~ 0100110 


解码 


0010111 一 0010 (完全 匹配 ) 


0010110 一 0010 (最 接近 的 匹配 ) 


1011100 一 ” 0011 (最 接近 的 匹配 ) 
计算 机 使 用 的 真实 人 代码。 计算机 科学 家 们 称 这 一 代码 为 (7,4) 汉 明 代码 。 注 意 ,“ 编 码 ” 框 中 
只 列 出 了 16 个 可 能 的 四 位 数 输入 中 的 5 个 。 其 余 的 输入 也 都 有 相应 的 代码 字 ， 但 它们 在 这 里 被 
省 略 了 。 


除 此 以 外 ， 所 有 事情 都 和 前 面 一 模 一 样 。 在 编码 时 ， 每 一 组 4 位 数 
字 都 加 入 了 元 余 ， 产 生 了 一 个 7 位 数 的 代码 字 。 在 解码 时 ， 你 首先 要 为 
接收 到 的 7 位 数 寻找 完全 匹配 ， 如 采 寻 找 完全 匹配 失败 ， 驳 选择 最 接近 
的 匹配 。 你 也 许 会 担心 ， 现 在 我 们 在 和 0 及 1 打交道 ， 也 许 相近 的 匹配 
不 只 一 个 ， 最 后 可 能 会 选择 错误 的 解码 。 不 过 ， 这 种 特殊 代码 的 设计 
非常 精巧 ，7 位 数 代码 字 中 的 任何 错误 都 能 得 到 确定 无 颖 的 纠正 。 在 设 
计 市 有 这 种 属性 的 代码 育 后 是 一 些 美 丽 的 数学 ， 但 在 这 里 ， 我 们 不 会 
深究 其 细节。 


值得 强调 的 是 ， 为 什么 见 余 把 戏 在 实际 应 用 中 要 比重 复 把 戏 更 受 
欢迎 。 主 要 原因 是 这 两 个 把 戏 的 相对 成 本 。 计 算 机 科学 家 们 使 用 “ 灯 
项 ”(overhead) 衡量 纠 错 系 统 的 成 本 。 灯 项 就 是 为 确保 消息 被 正确 接 
收 而 发 送 的 多 余人 信息。 重复 把 戏 的 杂项 数量 巨大 ， 因 为 你 必须 发 送 数 
份 完整 消息 。 宛 余 把 戏 的 杂项 取决 于 你 使 用 的 代码 字 的 具体 类 型 。 上 
面 的 例子 使 用 英语 作为 代码 字 ， 宛 余 消息 有 35 个 字母 长 ， 而 原始 消息 
只 含有 6 个 数字 ， 因 此 宛 余 把 戏 这 一 特殊 应 用 的 杂项 也 很 大 。 但 数学 家 
们 已 经 找到 了 宛 余 度 低 很 多 的 代码 字 ， 而 且 其 在 侦 测 错误 的 概率 上 也 
效率 惊人 。 这 些 代码 字 的 低 灯 项 也 是 计算 机 使 用 匈 余 把 戏 一 一 而 非 重 
复 把 戏 一 一 的 原因 。 

到 目前 为 止 ， 我们 进行 的 讨论 都 使 用 利用 代码 传输 信息 的 例子 ， 
但 我 们 讨论 过 的 所 有 事情 都 能 很 好 地 在 存储 信息 的 任务 中 应 用 。CD、 
DVD 和 计算 机 硬盘 都 极度 依赖 纠 错 码 ， 以 实现 我 们 在 现实 中 观察 到 的 
超级 可 靠 性 。 


| 校 验 和 把 戏 


目前 为 止 ， 我 们 研究 了 同时 侦 测 和 纠正 数据 中 错误 的 方法 。 重 复 
把 戏 和 元 余 把 戏 都 属于 此 类 方法 。 但 还 有 另外 一 种 可 能 的 方法 能 解决 


整个 问题 ， 我 们 可 以 先 不 管 纠 错 ， 而 是 将 精力 集中 在 侦 测 错误 上 。 

17 世 纪 的 哲学 家 约翰 .洛克 对 错误 侦 测 和 错误 纠正 之 间 的 区 别 有 清 楚 
地 认识 一 一 正如 你 在 本 章 开篇 引言 中 所 看 到 的 。) 对 于 许多 软件 而 
言 ， 只 侦 测 到 一 个 错误 瓯 足够 了 ， 因 为 如 果 你 侦 测 到 了 一 个 错误 ， 请 
求 再 发 送 一 份 数据 即 可 。 而 且 你 可 以 一 直 请 求 新 拷贝 ， 直 到 得 到 完全 
无 误 的 拷贝 。 这 是 最 经 常 使 用 的 策略 。 比 如 ， 几 乎 所 有 互联 网 连接 都 
使 用 这 一 技术 。 我 们 称 这 一 方法 为 “ 校 验 和 把 戏 ” (The checksum 
trick) ， 这 么 命名 的 原因 很 快 就 会 明 表 。 


要 理解 校 验 和 把 戏 ， 假 设 我 们 所 有 消 妃 都 只 有 数字 组 成 会 更 方便 
些 。 这 征 一 个 非常 真实 的 假设 ， 因 为 计算 机 用 数字 存储 所 有 信息 ， 只 
有 在 癌 人 展示 信息 时 ， 才 把 数字 转译 成 文本 或 图 像 。 不 过 ， 在 本 章 所 
有 的 例 了 于 中 ， 任 何 对 消 恩 符号 的 特殊 选择 都 不 影响 本 草 描述 的 技术 ， 
理解 这 点 很 重要 。 有 时 候 使 用 数字 符号 (数字 0~9) 更 方便 ， 而 有 时 候 
使 用 字母 符号 (字母 a~z) 要 更 加 方便 。 不 过 ,不管 是 使 用 哪 种 符号 ， 
我 们 都 能 就 这 些 符号 之 间 的 一 些 转 译 达 成 一 至。 比如 ， 从 字母 转译 为 
数字 符 吕 的 一 个 明显 例子 吏 是 a--01、b 一 02、.……. `z 一 26。 因 此 , 我 
们 有 是 在 探 完 一 项 传输 数字 消息 还 是 字母 消息 的 技术 怠 变 得 无 关 紧 要 
了 ; 通过 首先 对 符号 进行 简单 的 固定 的 转译 ， 这 项 技术 稍 后 将 被 应 用 
在 任何 种 类 的 消 轧 上 。 


到 这 里 ， 我 们 必须 了 解 校 验 和 究竟 是 什么 。 校 验 和 的 种 类 有 很 
多 ,但 目前 我 们 将 着 重 于 最 简单 的 那 种 校 验 和 一 一 我 们 称 之 为 “简单 校 
验 和 ” (simple checksum) 。 计 算 一 条 数字 消息 的 简单 校 验 和 的 确 很 容 
易 : 你 只 需 将 消息 中 的 所 有 数字 相 加 ， 只 保留 结果 的 最 后 一 位 数 ， 剩 
下 的 数字 就 是 你 的 人 简单 校 验 和 。 比 如 : 假设 消 县 是 : 


46756 


那么 所 有 数字 之 和 为 4+6+7+5+6 = 28， 但 我 们 只 保留 最 后 一 位 
数 ， 因 此 这 条 消息 的 简单 校 验 和 是 8 。 


但 如 何 使 用 校长 和 呢 ? 很 测 单 : 你 只 需 在 发 送 原始 消息 前 ， 将 原 
台 消 轧 的 校 验 和 附加 到 消 恩 末尾 即 可 。 在 别人 接收 到 消 恩 后 ， 他 们 能 
再 计算 校 验 和 ， 并 和 你 发 送 的 校 验 和 比较 ， 看 是 否 正 确 。 换 人 句 话说 ， 
他 们 “check”( 校 验 ) 消息 的 “sum” (和 ) 一 一 这 就 是 术 
语 “checksum”( 校 验 和 ) 的 由 来 。 继 续 说 上 面 的 例子 。 消 息 “46756” 的 
简单 校 验 和 是 8， 因 此 我 们 这 样 来 传输 消息 及 其 校 验 和 : 


467568 


现在 ， 接 收 消息 的 人 必须 知道 你 使 用 的 是 校 验 和 把 戏 。 假 设 他 们 
确实 知道 ， 他 们 就 能 立即 认 出 最 后 一 位 数 8 不 属于 原始 消息 ， 然 后 把 最 
后 一 位 数 放 一 边 ， 计 算 其 他 数 的 和 。 如 果 在 传输 这 条 消息 时 没有 出 现 
错误 ， 他 们 会 计算 4+6+7+5+6 = 28， 保 留 最 后 一 位 数 (也 就 是 8) ， 在 
将 最 后 一 位 数 和 之 前 放 到 一 边 的 校 验 和 比较 ， 看 是 否 相 等 (的确 相 
等 ) ， 因 此 得 出 总 结 ， 消 息 正确 地 进行 了 传输 。 男 一 方面 ， 如 果 传 输 
消息 时 出 错 了 ， 这 时 会 发 生 什 么 ? 假设 7 随机 变 为 3。 那 么 你 会 收 到 如 
下 消息 : 


463568 


你 将 8 放 到 一 边 以 备 后 续 比 较 ， 并 计算 校 验 和 为 4+6+3+5+6 = 24， 
只 保留 最 后 一 位 数 (4) 。4 和 之 前 放 到 一 边 的 8 并 不 相等 ， 因 此 你 可 以 
肯定 消 恩 在 传输 途中 遭 到 了 破坏 。 这 时 ， 你 请 求 重新 传输 消 轧 ， 直 到 
接收 到 新 拷贝 ， 然 后 再 次 计算 并 比较 校 验 和 。 你 可 以 一 直 这 么 做 ， 直 
到 得 到 一 条 校 验 和 正确 的 消息 为 止 。 


所 有 这 一 切 似 乎 太 过 美好 ， 不 可 能 成 真 。 还 记得 吗 ? 一 个 纠 错 系 
统 的 “杂项 ” 束 是 在 发 送 消 妃 本 吴 以 外 要 发 送 的 额外 信息 量 。 好 吧 ， 我 
们 似乎 得 到 了 终极 低 杂 项 系统 ， 因 为 不 管 消 电 有 多 长 ， 我 们 只 需 多 应 
加 一 位 数 ( 校 验 和 ) 就 能 侦 测 错误 ! 


啊 ， 结 采 证 明 简 单 校 验 和 系统 太 过 闫 好， 不 能 成 真 。 位 单 校 验 和 
的 问题 是 : 上面 描述 到 的 简单 校 验 和 最 多 只 能 在 消 息 中 侦 测 出 一 错 
误 。 如 采 有 两 个 或 更 多 错误 ， 简 单 校 迷 和 或 许 能 侦 测 到 它们 ， 但 也 有 
可 能 侦 测 不 到 。 让 我 们 来 看 看 这 个 问题 的 一 些 例 子 : 


校 验 和 
原始 消息 46756 8 
有 一 处 错误 的 消息 16756 5 
有 两 处 错误 的 消息 15756 4 


有 两 处 (不同 ) 错误 的 消息 2 8 7 5 6 8 


原始 消息 (46756) 和 前 面 一 样 ， 其 校 验 和 也 没 变 (8) 。 下 一 行 
的 消息 有 一 个 错误 (第 一 个 数 是 1 而 不 是 4) ， 其 校 验 和 为 5。 事 实 上 ， 
你 很 有 可 能 说 服 目 己 ， 更 改 任何 单个 数字 都 会 导致 与 8 不 同 的 校 验 和 |， 
因此 你 保证 能 侦 测 到 消 居 中 的 任何 单个 错误 。 要 证 明 这 一 点 永远 为 真 
并 不 难 : 如 采 只 有 一 个 错误 ,位 单 校 验 和 绝对 能 保证 侦 测 到 它 。 


再 下 一 行 ， 我 们 看 到 一 条 带 有 两 处 错误 的 消息 :前 两 个 数 都 被 蔡 
换 了 。 这 条 消息 的 校 验 和 恰好 是 4。 而 由 于 4 和 原始 校 验 和 8 不 同 ， 收 到 
这 条 消息 的 人 能 侦 测 到 出 现 了 一 个 错误 。 然 而 ， 最 后 一 行 就 遇 到 了 麻 
烦 。 这 也 是 一 条 有 两 处 错误 的 消息 ， 也 是 前 两 位 数 出 错 。 但 出 错 的 两 
位 数 的 值 不 同 ， 而 且 这 条 有 两 处 错误 的 消息 的 校 验 和 恰好 也 是 8 一 一 和 
原始 校 验 和 一 样 ! 因此 接收 这 条 消息 的 人 将 不 能 侦 测 到 消息 中 有 错 
误 。 


幸运 的 是 ， 我 们 可 以 通过 对 校 验 和 把 戏 进 行 一 些微 调 来 解决 这 个 
问题 。 第 一 步 是 定义 一 种 新 的 校 验 和 。 让 我 们 称 这 种 新 的 校 验 和 为 “ 阶 
梯 *” 校 验 和 (staircase checksum) ， 因 为 这 个 名 字 有 助 于 通过 想象 在 疏 
楼 梯 进 行 计算 。 想 象 你 处 于 一 个 楼 梯 的 底部 ， 楼 梯 台 阶 编号 为 1、2、 


3.……. 依 此 类 推 。 要 计算 阶梯 校 验 和 ， 你 像 之 前 一 样 把 数字 相 加 ， 但 每 
个 数 都 要 和 该 数字 所 在 位 阶 数 相 乘 ， 每 个 数 都 比 前 一 个 数 大 一 个 位 


阶 。 最 后 ， 你 只 保留 最 后 一 位 数 ， 和 简单 校 验 和 一 样 。 因 此 ， 如 果 消 
恩 是 : 
46756 

和 之 前 类 似 ， 阶 梯 校 验 和 通过 首先 计算 阶梯 和 来 结算 : 

(1x4) + (2x6) + (3x7) + (4x5) + (5x6) 

=4+12+21+20+30 

= 

然后 只 保留 最 后 一 位 数 ， 也 就 是 7。 因 此 “46756” 的 阶梯 校 验 和 为 
7 。 


所 有 这 一 切 想 说 明 什 么 ?” 如果 你 同时 使 用 位 单 校 验 和 及 阶梯 校 验 
和 和， 那么 你 环保 证 能 侦 测 到 任何 消 恩 中 两 处 错误 。 因 此 ， 用 我 们 新 的 
校 验 和 把 戏 来 传输 原始 消 忌 会 多 出 两 个 数 子 ， 首先 是 简单 校 验 和 ， 其 
次 是 阶 梯 校 迷 和 。 比 如 ， 消 妃 “46756” 会 以 : 


4675687 


传输 。 当 你 收 到 背 轧 时 ， 你 仍然 必须 提前 知道 会 运用 哪些 把 戏 。 
但 假设 你 确实 知道 ， 那 么 检查 错误 束 像 使 用 简单 校 牲 和 一 样 容易 。 在 
这 个 例子 中 ， 你 先 把 最 后 两 个 数 (简单 校 验 和 8 及 阶梯 校 验 和 7) 放 一 
边 ， 然 后 计算 消息 其 余部 分 的 简单 校 验 和 (46756 的 简单 校 验 和 是 
8) ， 阶 梯 校 验 和 也 要 计算 (结果 为 7)” 。 如 果 两 个 计算 后 的 校 验 和 值 
和 发 送 的 两 个 校 验 和 匹配 (这 个 例子 中 的 两 个 值 的 确 匹 配 ) ， 你 就 可 
以 保证 这 条 消息 要 么 是 正确 的 ， 权 么 至 少 有 三 处 错误 。 


下 一 张 表 显 示 了 这 两 种 校 验 和 的 实际 运用 情况 。 这 张 表 和 前 面 那 
张 表 几乎 一 模 一 样 ， 除 了 在 每 行 末 尾 加 上 了 阶梯 校 验 和 ， 以 及 新 加 了 
一 行 作为 额外 的 例子 。 当 消 轧 中 有 一 处 错误 时 ， 我 们 发 现 这 条 消 轧 的 
简单 校 验 和 及 阶梯 校 验 和 均 与 原始 消息 的 不 同 (简单 校 验 和 是 5 而 不 是 
8， 阶 梯 校 验 和 是 4 而 不 是 7) 。 当 消息 中 有 两 处 错误 时 ， 有 可 能 两 个 校 
验 和 值 都 不 相同 ， 如 表 中 第 3 行 的 简单 校 迷 和 征 4 而 不 是 8， 阶 梯 校 验 和 
是 2 而 不 是 7。 但 正如 我 们 已 经 发 现 的 ， 有 时 候 当 消息 中 有 两 处 错误 
时 ， 该 消 忌 的 位 单 校 验 和 不 会 改变 。 表 中 第 4 行 束 古 这 种 情况 的 一 个 例 
子 ， 其 简单 校 验 和 仍然 是 8。 但 因为 阶梯 校 验 和 和 原始 消息 的 不 同 (9 
而 不 是 7) ， 我 们 仍然 知道 这 条 消息 有 府 。 在 表 中 最 后 一 行 ， 我 们 能 
到 还 有 另外 一 种 情况 : 这 条 售 有 两 处 错误 的 消息 的 简单 校 验 和 不 同 
(是 9 而 不 是 8) ， 但 其 阶梯 校 验 和 却 一 样 (7) 。 不 过 ， 这 里 的 意思 是 
我 们 仍然 能 侦 测 到 错 座 ， 因 为 两 个 校 验 和 中 人 至少 有 一 个 和 原始 校 验 和 
不 同 。 尽 管 需 要 用 一 些 稍微 技术 性 的 数学 来 证 明 ， 但 有 一 点 是 确认 无 
疑 的 ， 只 要 错误 不 超过 两 处 ， 你 束 都 能 够 侦 测 到 错误 。 


简单 和 阶 校 验 和 
原始 消息 46756 8 7 
有 一 处 错误 的 消息 16756 5 4 
有 两 处 错误 的 消息 15756 4 2 
有 两 处 (不同) 错误 的 消息 28756 8 9 
另 一 条 有 两 处 〈 不 同 ) 错误 的 消息 6 5 7 5 6 9 7 


既然 我 们 对 基本 方法 有 了 初步 了 解 ， 我 们 需要 意识 到 ， 刚 刚 描 述 
的 校 验 和 把 戏 只 能 保证 在 相对 较 短 的 消息 上 冯 效 〈 少 于 10 位 数 ) 。 但 
与 此 非常 类 似 的 概念 能 被 应 用 在 较 长 的 消 妃 上 “。 通 过 一 定 的 简单 操作 
序列 ， 如 把 数字 加 起 来 ， 将 数字 和 其 位 阶 相 乘 ， 或 按照 固定 模式 将 一 
些 数 子 交 换 ， 我 们 还 是 有 可 能 定义 校 验 和 的 。 尽 管 这 听 起 来 很 复业 ， 


计算 机 却 能 暑 不 费力 地 迅速 计算 这 些 校 验 和 。 结 有 果 证 明 ， 这 些 方法 用 
在 侦 测 消 晨 中 的 错误 上 极其 有 效 且 实 用 。 


上 面 描述 的 校 验 和 把 戏 只 生成 两 个 校 验 和 数字 (简单 校 验 和 及 阶 
梯 校 验 和 ) ， 但 真正 的 校 验 和 通常 会 生成 比 这 长 得 多 的 数字 一 一 有 时 
长 达 150 位 。 (我 在 本 章 中 讲 的 都 是 十 进 制 数 0~9， 而 不 是 二 进 制 数 0 和 
1， 二 进 制 数 在 计算 机 通信 中 要 更 经 常 被 用 到 。) 重点 是 ， 校 验 和 的 长 
度 (要 么 和 上 面 的 例子 一 样 是 2 位 ， 要 么 和 在 实际 中 运用 的 校 验 和 一 
样 ， 有 近 150 位 ) 是 固定 的 。 不 过 ， 尽 管 所 有 校 验 和 算法 生成 的 校 验 和 
长 度 部 是 固定 的 ， 只 要 你 愿意 ， 你 者 能 计算 消 恩 的 校 验 和 。 因 此 ， 对 
于 非常 长 的 消息 来 说 ， 即 便 一 个 相对 较 大 的 校 验 和 (如 150 位 数 ) ， 最 
终 和 消 轧 本 号 相 比 也 极 小 。 比 如 ， 假 设 你 从 互联 网 上 下 载 了 一 个 20 兆 
的 软件 包 ， 你 使 用 了 一 个 100 位 数 的 校 验 和 来 验证 它 的 正确 性 。 软 件 包 
的 校 验 和 也 比 不 上 软件 包 大 小 的 十 万 之 一 。 我 敢 肯 定 ， 你 会 认为 这 个 
杂项 水 平 可 以 接受 ! 而 数学 家 会 告诉 你 ， 使 用 这 种 长 度 的 校 验 和 侦 测 
音 误 ， 其 失败 的 概率 极其 微小 ， 在 现实 中 几乎 不 可 能 失败 。 


和 前 面 一 样 ， 这 里 也 有 几 处 重要 的 技术 细节 。 并 不 是 任何 一 个 百 
位 数 校 验 和 系统 对 失败 都 有 如 此 高 的 抵抗 性 。 这 需要 一 种 被 计 算 机 科 
学 家 称 为 加 密 哈 希 函 数 (cryptographic hash function) 的 特定 校 验 和 ， 
尤其 是 在 恶意 敌人 而 非 糟糕 信道 的 随机 变动 对 信息 作出 改变 时 。 这 是 
个 非常 现实 的 问题 ， 因 为 也 许 就 有 一 名 邪恶 黑客 试图 更 改 这 个 20 兆 的 
软件 包 ， 并 让 其 具有 相同 的 100 位 校 验 和 数 ， 而 这 个 不 同 的 软件 其 实 是 
要 控制 你 的 计算 机 ! 使 用 加 密 哈 硕 函 数 能 消除 这 种 可 能 性 。 


| 定位 把 戏 


既然 知道 了 校 验 和 ， 现 在 我 们 可 以 回 到 最 初 同时 侦 测 和 纠正 通信 
错误 的 问题 上 了 。 我 们 已 经 知道 如 何 做 到 这 一 点 ， 要 么 使 用 低 效 的 重 


复 把 戏 ， 要 么 使 用 高 效 的 见 余 把 戏 。 但 还 是 让 我 们 先 回 到 这 个 问题 ， 
因为 我 们 从 未 真正 地 了 解 代码 字 十 如 何 创 造 的 ， 而 代码 字 则 是 这 些 把 
戏 的 关键 成 分 。 我 们 的 确 有 用 英语 单词 描述 数字 的 例 了 于， 但 那 种 代码 
字 不 如 计算 机 实际 使 用 的 代码 字 高 效 。 我 们 也 看 过 一 段 汉 明代 码 的 真 
实例 子 ， 但 没有 解释 一 开始 代码 字 古 如 何 生 成 的 。 


因此 ， 现 在 我 们 要 学 习 另 一 套 可 能 的 代码 字 ， 用 来 执行 元 余 把 
戏 。 因 为 这 种 宛 余 把 戏 很 特别 ， 它 能 让 你 迅速 定位 一 处 错误 ， 我 们 称 
其 为 “定位 把 戏 ” (the pinioint trick) 。 


正如 我 们 在 校 验 和 把 戏 中 做 的 一 样 ， 我 们 将 和 完全 由 数 子 0~9 组 成 
的 消息 打交道 ， 但 你 要 记 住 ， 这 只 是 为 了 方便 起 见 。 将 字母 消 轧 转译 
成 数字 很 测 单 ， 因 此 在 这 里 摘 述 的 扩 术 能 被 应 用 到 任何 消 轧 上 。 

为 简单 起 见 ， 主 我 们 假设 消 轧 恰好 有 16 个 数字 ， 但 这 并 非 该 技术 
在 现实 中 的 应 用 。 如 果 你 有 一 条 长 请 上 电 ， 将 其 打 酚 成 16 位 数 长 的 块 ， 
并 单独 处 理 每 块 数据 。 如 有 果 消 息 比 16 个 数字 短 ， 用 0 补 成 16 位 数 。 


定位 把 戏 的 第 一 步 古 重新 排列 消 乱 中 的 16 个 数 ， 将 其 排列 成 一 个 
从 左 往 右 、 目 上 问 下 谈 的 方 框 。 如 采 实 际 消息 是 : 


4837543622563997 


重新 排列 为 : 


483 7 


5 436 


225 6 


3 9 -9 7 


下 一 步 ， 我 们 计算 每 一 行 的 校 验 和 ， 并 添加 在 每 行 的 右 侧 : 


这 些 简 单 校 验 和 的 计算 方式 和 前 面 一 样 。 比 如 ， 要 得 到 第 二 行 的 
校 验 和 ， 你 需要 计算 5+4+3+6 = 18， 并 保留 最 后 一 位 数 8。 


定位 把 戏 的 下 一 步 是 计算 每 一 栏 的 简单 校 验 和 ， 并 添加 在 每 列 的 
底部 : 


和 前 面 一 样 ， 求 简单 校 验 和 的 方法 很 清楚 。 比 如 ， 要 得 到 第 二 行 
的 校 验 和 ， 你 需要 计算 3+3+5+9 = 20， 并 保留 最 后 一 位 数 0。 
定位 把 戏 的 下 一 步 是 重新 排列 所 有 数 ， 让 其 能 以 一 次 一 个 数 的 方 


式 存 储 或 传输 。 你 通过 从 左 往 右 、 目 上 同 下 读 的 方式 读数 。 因 此 ， 最 
后 你 会 得 到 如 下 24 位 数 的 消息 : 


483725436822565399784306 


现在 ， 想 象 你 已 经 收 到 了 一 条 使 用 定位 把 戏 传输 的 消 思 。 你 需要 
采取 哪些 步骤 来 得 到 原始 消息 ， 纠 正 其 中 出 现 的 任何 通信 错误 ”让 我 
们 举 个 例子 来 说 明 。 原 始 的 16 位 数 消 奶 和 上 面 的 一 样 ， 但 为 了 让 事情 
变 得 更 有 趣 ， 假 设 出 现 了 一 处 通信 错误， 其 中 一 个 数 个 巷 换 了 。 现 在 
还 不 必 担 心 被 蔡 换 的 数 是 哪个 ， 我 们 很 快 就 能 运用 定位 把 戏 来 确定 。 


假设 你 收 到 的 24 位 数 消 息 是 : 


483725436827565399784306 


你 要 做 的 第 一 步 束 是 把 数字 放 入 一 个 五 行 五 列 的 方 框 中 ， 最 后 一 
行 和 最 后 一 列 都 对 应 随 原 始 消 妃 一 起 发 送 的 校 验 和 数字 : 


接 下 来 ,计算 每 一 行 每 一 列 四 个 数 的 简单 校 验 和 ， 在 接收 到 的 校 
验 和 值 卷 边 靳 建 一 行 和 一 列 ， 并 在 其 中 记录 计算 结果 : 


这 里 会 出 现 两 组 校长 和 值 : 你 发 送 的 ， 以 及 你 计算 出 来 的 ， 记 住 
这 一 点 至 关 重 要 。 在 绝 大 多 数 情况 下 ， 两 套 值 都 一 样 。 事 实 上 ， 如 采 
它们 都 一 样 ， 你 可 以 得 出 结论 ， 收 到 的 消息 极 有 可 能 是 正确 的 。 但 如 
果 出 现 一 个 通信 错误， 计算 得 出 的 一 些 校 验 和 值 会 和 发 送 的 不 同 。 注 
意 ， 这 个 例子 中 有 两 个 不 同 之 处 : 第 三 行 的 5 和 0 不 同 ， 第 二 列 的 3 和 8 


/ 世 \、， 


不 同 。 冲 突 的 校 验 和 在 框 中 被 标注 了 出 来 : 


关键 在 于 : 这些 不 同 之 处 的 位 置 正好 说 明了 通讯 错误 出 现 的 位 
置 ! 错误 肯定 是 在 第 三 行 (因为 其 他 行 的 校 验 和 都 正确 ) ， 错 误 也 肯 
定 是 出 现在 第 二 列 (因为 其 他 列 的 校 验 和 都 正确 ) 。 正 如 你 能 在 下 图 
中 看 到 的 ， 这 将 错误 的 可 能 性 圈定 为 一 种 一 一 框 中 标 出 的 7: 


但 这 还 不 是 全 部 ， 我 们 定位 了 错误 ， 但 还 没 纠 正 它 。 笠 运 的 是 ， 
很 容易 做 到 这 一 点 : 我 们 只 要 用 一 个 能 让 两 个 校 验 和 都 正确 的 数字 替 
换 出 错 的 7 即 可 。 我 们 能 看 出 ， 第 二 栏 的 校 验 和 本 应 为 3， 但 结果 却 是 
8。 换 句 话 说 ， 校 验 和 需要 减 5。 我 们 把 错误 的 7 减 5， 得 到 2: 


你 甚至 可 以 通过 检查 第 三 行 来 验证 这 一 改变 。 第 三 行 的 校 验 值 现 
在 变 成 了 5， 和 收 到 的 校 验 和 一 怪 。 错 误 同 时 侦 定 位 和 纠正 了 ! 最 后 一 
步 很 明显 ， 就 是 将 纠正 后 的 原始 16 位 数 消 息 从 五 行 五 列 的 框 中 取出 ， 
方法 是 从 左 往 右 ， 自 上 向 下 读 (当然 要 忽略 最 后 一 行 和 最 后 一 列 ) 
结果 是 : 


4837543622563997 
这 和 我 们 一 开始 用 到 的 消 妃 相同 。 


在 计算 机 科学 中 ， 定 位 把 戏 的 名 称 是 “二 维 奇偶 校 验 码 ” (two- 
dimensional parity) 。 奇 侦 校 验 码 这 个 词 的 意思 和 简单 校 验 和 一 样 , 计 
算 机 在 处 理 二 进 制 数字 时 经 常用 到 它 。 而 奇偶 校 验 码 被 形容 为 二 维 ， 
是 因为 消息 放 在 有 两 个 维度 的 表格 ( 行 和 列 ) 中 。 二 维 奇偶 校 验 码 在 
一 些 真 正 的 计算 机 系统 中 也 有 运用 ,但 并 不 如 其 他 一 些 见 余 把 戏 高 
效 。 我 在 这 里 解释 它 的 原因 是 ， 它 能 很 容易 地 具 化 并 展现 在 不 要 求 复 


杂 数 学 的 情况 下 ， 于 当今 计算 机 系统 中 的 流行 代码 背后 发 现 并 纠正 错 
误 的 风味 。 


pb 现实 世界 中 的 纠 错 及 侦 锯 


纠 错 码 于 20 世 纪 90 年 代 问 世 ， 距 离 电 子 计 算 机 诞生 后 不 久 。 回 顾 
一 下 不 难看 出 原因 : 早期 计算 机 相当 不 可 靠 ,， 组件 经 常 产 生 错 误 。 但 
纠 错 码 的 真正 根源 出 现 得 还 要 早 ， 根 源 在 电报 和 电话 等 通信 系统 
因此 ， 这 两 大 导致 纠 错 码 发 生 的 事件 都 发 生 在 贝尔 电话 公司 的 研究 实 
验 室 中 也 就 不 奇怪 了 。 我 们 故事 中 的 两 位 英雄 克 劳 德 :香农 (Claude 
Shannon) 和 理 查 德 : 汉 明 都 是 贝尔 实验 室 的 研究 人 员 。 前 面 已 经 介绍 
了 汉 明 : 正 是 因为 他 对 公司 计算 机 在 周末 月 尝 的 愤怒 ， 直 接 导 致 了 第 
一 批 纠 错 码 的 发 明 ， 也 就 是 现在 闻名 的 汉 明 代码 。 


不 过 ， 纠 错 码 只 是 一 个 更 大 专业 的 一 部 分 ， 这 个 专业 被 称 为 信息 
理论 学 (information theory) ， 而 绝 大 多 数 计算 机 科学 家 将 信息 理论 学 
的 诞生 归 因 于 克 秀 德 .香农 在 1948 年 发 表 的 一 篇 论文 。 香 农 的 一 本 目 传 
中 将 这 篇 名 为 《通信 的 数学 理论 》 (The Mathematical Theory of 
Communication) 的 卓越 论文 形容 为 “信息 时 代 的 大 宪章 *。 欧 文 :里 德 

(Irving Reed) 这 么 形容 这 篇 论文 : “本 世纪 只 有 几 件 事 能 在 对 科学 和 
工程 学 的 影响 力 上 超越 (这 篇 论文 ) 。 通 过 这 篇 里 程 碑 式 的 论文 .…… 
他 极 大 地 改变 了 通信 理论 和 实践 的 所 有 方面 。” 欧 文 : 里 德 是 里 德 一 香 
农 代码 的 共同 发 明 人 ， 我 们 将 在 下 面 提 到 里 德 一 香农 代码 。 为 什么 沈 
誉 如 此 之 高 ? 香农 通过 数学 展示 了 ， 有 可 能 从 根本 上 通过 一 个 嘲 杂 
的 、 引 发 错误 的 链接 实现 错误 率 极 低 的 通信 。 直 到 数 十 年 后 ， 科 学 家 
们 才 在 现实 中 接近 实现 了 香农 的 理论 最 大 通信 和 率 。 


顺便 说 一 下 ， 香 农 的 兴趣 非常 广泛 。 作 为 1956 年 达 特 茅 斯 人 工 智 
能 大 会 《将 在 第 六 章 末 谈 到 ) 的 四 位 主要 组 织 者 之 一 ， 他 积极 参与 了 


另 一 领域 的 创立 : 人 工 知 能。 这 还 没完 。 他 还 骑 单 轮 车 ， 并 制造 了 一 
辆 令 人 难以 置信 的 单 纶 车 。 这 辆 单 纶 车 有 一 个 椭圆 轮子 ， 意 味 看 车 手 
随 着 单 纶 车 前 进 可 以 上 下 移动 ! 


香农 的 工作 将 汉 明 代码 放 到 了 一 个 更 大 的 理论 环境 中 ， 并 为 许多 
深入 发 展 打下 了 基础 。 自 此 以 后 ， 汉 明代 码 被 用 于 一 些 最 早期 的 计算 
机 中 ， 并 仍 广 泛 用 于 一 些 特 定 种 类 的 内 存 系统 中 。 里 德 一 所 罗 门 
(Reed-Solomon) 代码 是 另 一 类 重要 的 代码 。 这 些 代 码 能 被 用 来 纠正 
每 个 代码 字 中 的 众多 错误 。[ 与 这 里 的 (7, 4) 汉 明 代码 截然 不 
同 ， 汉 明代 码 只 能 纠正 7 位 数 代码 字 中 的 一 个 错误 。] 里 德 一 所 
罗 门 代码 基于 一 个 名 为 有 限 域 代 数 (finite field algebra) 的 数学 分 支 ， 
但 你 可 以 非常 粗略 地 想象 ， 它 结合 了 阶梯 校 验 和 及 二 维 定 点 把 戏 的 特 
色 。CD、DVD 和 计算 机 硬盘 中 都 用 到 了 里 德 一 所 罗 门 代码 。 


校 验 和 在 现实 中 的 运用 也 很 广泛 ， 一 般 是 用 于 侦 测 而 非 纠 正 错 
误 。 也 许 最 常见 的 例子 就 算 以 太 网 了 ， 现 今 地 球 上 几乎 所 有 计算 机 都 
用 这 一 联网 协议 。 以 太 网 中 应 用 了 一 种 被 称 为 CRC-32 的 校 验 和 来 侦 测 
普 误 。 最 为 普遍 的 互联 网 协议 TcP 也 在 其 发 送 的 每 块 (或 包 ) 数据 上 
使 用 校 验 和 。 校 验 和 不 正确 的 包 直 接 被 丢弃 了 ， 因 为 TCP 被 设计 用 来 
在 以 后 必要 时 自动 传输 这 些 包 。 发 布 在 互联 网 上 的 软件 包 通 常 使 用 校 
验 和 验证 : 其 中 一 种 流行 的 校 验 和 是 MD5， 另 一 种 是 SHA-1。 这 两 种 
校 验 和 都 属于 加 密 哈 希 函数 ， 为 抵御 恶意 自 改 软件 提供 保护 ， 也 能 防 
止 随机 通信 错误 。MD5 校 验 和 约 有 40 位 数 长 ，SHA-1 生 成 的 数 约 有 50 
位 。SHA-1 的 同类 校 验 和 中 有 些 抗 错 性 甚至 要 更 好 ， 如 SHA-256 ( 约 
75 位 数 ) 和 SHA-512 ( 约 150 位 数 ) 。 


纠 错 及 侦 测 代码 这 门 科 学 不 断 壮 大 。 目 20 世 纪 90 年 代 开 始 ， 一 种 
名 为 低 密 度 奇 偶 校 验 码 (low-density parity-check codes) 的 方法 受到 极 
大 关注 。 这 些 代 码 如 今 的 用 途 非 党 广泛 ， 从 卫星 电视 到 通过 深海 光线 
进行 的 通信 。 下 次 你 在 周末 享受 高 清 卫星 电视 时 ， 不 妨 遐 思 一 下 这 个 


令 人 回味 的 反讽 : 正 是 由 于 理 查 德 : 汉 明 在 周末 与 早期 计算 机 的 斗争 中 
产生 了 困扰 ， 才 有 了 我 们 现在 周末 的 娱乐 。 


第 六 草 ”图 形 识别 一 一 从 经 验 中 学 习 


分 析 引 擎 没有 原创 任何 东西 的 权利 。 它 只 和 
按照 我 们 的 指令 执行 任何 事情 。 


二 


CC 


一 一 艾 达 - 勒 英 花 丝 (Ada Lovelace) ， 
摘自 她 1843 年 有 关 分 析 引 警 的 笔记 


在 前 面 各 章 我 们 探索 的 领域 里 ， 计 算 机 的 能 力 都 要 远 超人 的 能 
力 。 比 如 ， 计 算 机 通常 可 以 在 一 两 秒 内 加 密 或 解密 一 个 大 文件 ， 而 人 
通过 手动 计算 执行 相同 的 任务 则 需要 数 年 时 间 。 举 个 更 极端 的 例子 ， 
想象 一 下 ， 假 设 让 人 根据 第 三 章 中 描述 的 算法 手动 计算 数 十 亿 网 页 的 
PageRank 权 重 。 这 项 任务 太 大 ， 在 现实 中 我 们 不 可 能 完成 这 项 任务 。 
但 互联 网 搜索 公司 的 计算 机 在 持续 不 断 地 执行 这 些 计算 。 


而 在 本 章 ， 我 们 将 审视 一 个 人 类 具有 天 然 优势 的 领域 : 图 形 识别 
领域 。 岁 形 识别 是 人 工 智能 的 一 部 分 ， 包 括 面 部 识别 、 物 体 识别 、 语 
音 识别 和 笔迹 识别 等 任务 。 更 具体 的 例子 ， 如 判定 一 张 照片 是 不 是 你 
姊妹 的 照片 ， 或 判定 手写 信封 上 的 城市 及 州 名 。 因 此 ， 图 形 识别 可 以 
更 通俗 地 定义 为 ， 让 计算 机 基于 输入 数据 “聪明 地 ?行动 的 任务 ， 这 些 
数据 包含 大 量 的 变量 。 


给 “聪明 地 ”加 双 引 号 的 理由 很 充分 :计算 机 是 否 能 展现 出 真正 的 
智能 ， 这 个 问题 具有 高 度 争 议 性 。 本 章 的 开篇 引言 代表 了 这 一 争论 中 
最 早 的 论述 之 一 : 艾 达 . 勒 天 蕾丝 于 1843 年 束 一 台 早 期 机 械 计算 机 的 设 
计 发 表 评论 ， 这 人 台 早 期 计算 机 被 称 为 分 析 引 擎 (Analytical Engine) 


但 在 这 一 声明 中 ， 她 着 重 说 明了 计算 机 缺乏 原创 性 : 它们 必须 严格 遵 
循 人 类 程序 员 的 指令 。 一 段 时 间 以 来 ， 计 算 机 科学 家 们 就 计算 机 能 否 
从 根本 上 展现 出 智能 争论 不 体 。 而 如 采 把 哲学 家 、 神 经 科学 家 和 神学 
家 也 算 上 的 话 ， 这 一 争论 甚至 会 变 得 更 复 洲 。 


滁 运 的 是 ， 我 们 不 必 在 本 划 解 决 机 絮 乔 能 的 那 论 。 从 我 们 的 目的 
出 发 ， 我 们 最 好 还 是 将 “智能 ”这 个 词 换 成 “有 用 ”。 因 此 ， 图 形 识 别 的 
基本 任务 就 是 处 理 一 些 变量 极 多 的 数据 如 不 同 光 照 环 境 下 的 各 种 
人 脸 照 片 ， 或 不 同人 书写 许多 不 同 字 的 笔迹 样本 并 做 一 些 有 用 的 
事 。 点 无 疑问 ， 人 能 够 智能 地 人 处理 这 些 数 据 : 我 们 能 以 令 人 难以 置信 
的 精确 度 识别 人 脸 ， 能 在 不 提前 查看 其 他 人 笔迹 样本 的 情况 下 ， 阅 读 
几乎 所 有 人 的 笔迹 。 计 算 机 在 处 理 这 些 任务 上 远 不 如 人 。 但 已 经 有 一 
些 精妙 的 算法 出 现 ， 能 让 计算 机 很 好 地 执行 一 些 特定 的 图 形 识 别 任 
务 。 在 本 章 ， 我 们 将 学 习 三 种 这 样 的 算法 : 最 近邻 分 类 器 (nearest- 
neighbor classifier) 、 决 策 树 (decision tree) 以 及 人 工 神经 网 络 

(artificial neural network) 。 但 首先 ， 我 们 要 对 党 试 解决 的 问题 进行 
更 科学 的 描述 。 


| 问题 定 什 么 ? 


从 一 开始 看 ， 图 形 识别 的 任务 种 类 多 得 似乎 超 乎 寻常 。 计 算 机 能 
使 用 一 个 单独 的 图 形 识 别 技术 工具 包 来 识别 笔迹 、 面 部 、 语 音 及 更 多 
东西 吗 ? 这 一 问题 的 可 能 管 案 之 一 是 ， 采 着 我 们 的 脸 看 ， 人 脑 在 处 理 
多 种 多 样 的 识别 任务 上 速度 超 快 、 精 确 度 超 高 。 我 们 能 编写 一 个 计算 
机 程序 来 做 到 相同 的 事 吗 ? 

在 讨论 那样 一 个 程序 可 能 用 到 的 技术 之 前 ， 我 们 需要 统一 令 人 有 眼 
化 综 乱 的 多 种 任务 ， 定 义 一 个 单一 问题 让 我 们 来 答 试 解决 。 要 实现 这 
一 点 ， 标 准 做 法 起 将 图 形 识 别 看 作 分 类 问题 。 我 们 假设 要 处 理 的 数据 


被 分 解 成 合理 大 小 的 块 ， 这 些 块 被 称 为 "样本 ”， 每 一 个 样本 都 属于 可 
能 “类 ” (class) 的 固定 集 之 一 。 比 如 ， 在 一 个 人 脸 识别 问题 中 ， 每 一 
个 样本 部 是 一 张 人 脸 图 片 ， 而 类 则 是 系统 能 识别 出 的 这 些 人 的 映 份 。 
有 一 些 问题 只 有 两 个 类 。 这 方面 的 津 见 例子 是 对 一 种 特殊 疾病 的 医学 
诊断 ， 而 其 中 的 两 个 类 也 许 是 “健康 ”和 “得 病 *"， 这 样 每 个 数据 样本 就 
能 组 成 单个 病人 的 所 有 诊断 结果 比如， 血压、 体重 、X 光 照片 以 及 
其 他 很 多 方面 ) 。 因 此 ， 计 算 机 的 任务 就 是 处 理 其 从 未 见 过 的 新 数据 
样本 ， 并 将 每 个 样本 分 到 可 能 的 一 个 类 中 。 


具体 来 讲 ， 接 下 来 让 我 们 集中 精力 于 一 个 图 形 识别 任务 。 这 个 任 
务 是 识别 手写 数字 ， 其 中 一 些 典型 样本 在 下 文 的 图 中 有 显示 。 这 个 问 
题 里 正好 有 10 个 类 : 数字 0、1、2、3、4、5、6、7、8 和 9。 因 此 ， 任 
务 束 是 将 手写 数字 样本 分 到 其 所 属 的 类 中 。 当 然 ， 这 是 个 有 着 巨大 实 
际 影响 的 问题 ， 因 为 美国 和 其 他 国家 都 使 用 数字 邮编 表示 地 址 。 如 采 
计算 机 能 快速 旦 精确 地 识别 这 些 邮 编 ， 机 履 分 类 信件 的 速度 就 要 比 人 


类 融 效 得 多 。 


很 显然 ， 计 算 机 并 没有 内 建 手写 数字 是 什么 样 的 知识 。 事 实 上 ， 

人 类 也 没有 这 种 内 建 知识 : 通过 结合 其 他 人 的 详尽 教授 以 及 观看 我 们 
用 来 教授 目 己 的 例子 ， 我 们 学 会 了 如 何 去 识 别 数字 及 其 他 手写 符号 。 
这 两 种 策略 (详尽 教授 和 从 例子 中 学 习 ) 也 被 用 于 计算 机 图 形 识别 。 
不 过 ， 结 采 显 示 ， 即 便 是 最 简单 的 任务 ， 详 尽 教授 计算 机 也 非常 低 
效 。 比 如 ， 可 以 将 我 房子 中 的 环境 控制 看 作 一 个 简单 的 分 类 系统 。 数 
据 样 本 包含 当前 温度 和 时 间 ， 三 个 可 能 的 类 分 别 是 “开局 供暖 ”`\“ 开 局 
空调 ”和 “两 者 均 关 闭 ”。 因 为 我 日 天 在 办 公 室 工 作 ， 我 在 日 天 吏 将 系统 
设置 为 “两 者 均 关 闭 ”， 而 在 这 些 时 间 之 外 ， 如 末 温 度 过 低 殊 会 “开启 供 
暧 ”， 如 采 温 度 过 高 束 会 “开启 空调 ”。 因此， 在 设置 温度 调 广 右 的 过 程 
中 ， 我 在 某 种 程度 上 “教授 ”了 系统 针对 这 三 个 类 执行 分 类 。 


不 幸 的 是 ， 没 人 能 详尽 地 “教授 ”计算 机 解决 更 有 趣 的 分 类 任务 ， 

如 下 一 页 的 手写 数字 。 因 此 计算 机 科学 家 们 转 回 另 一 种 策略 : 让 计算 
机 目 动 * 学 习 ” 如 何 分 类 样本 。 基 本 策略 站 给 计算 机 大 量 标记 数据 

(labeled data) : 已 经 被 分 类 的 样本 。 后 面 的 图 就 给 出 了 一 些 用 于 手 
写 数字 任务 的 标记 数据 。 因 为 每 个 样本 都 带 有 一 个 标签 〈 也 就 是 它 的 
类 ) ， 计 算 机 能 运用 多 种 分 析 把 戏 提取 出 每 个 类 的 特性 。 之 后 再 向 计 
算 机 提供 一 个 未 标记 的 样本 ， 通 过 选择 和 未 标记 样本 特性 最 接近 的 样 
本 ， 计 算 机 能 推测 未 标记 样本 的 类 。 


学 习 每 个 类 特性 的 过 程 通 向 被 称 为 训练 ”， 而 标记 数据 则 有 是 “训练 
数据 *。 因 此， 概括 来 说 ， 图 形 识 别 任 务 分 为 两 个 阶段 ， 衣 先 是 训练 阶 
段 ， 计 算 机 基于 一 些 标记 训练 数据 学 习 类 ; 其 次 是 分 类 阶段 ， 计 算 机 
对 新 的 未 标记 的 数据 样本 进行 分 类 。 
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写 数 


计算 机 的 任务 是 将 每 个 手 


` 9 的 一 个 类 中 去 。 


数据 来 源 : 乐 康 (LeCun) 等 人 的 MNIST 数 据 。 


可 以 说 绝 大 多 数 图 形 识 别 任务 都 是 分 类 问题 在 这 个 例子 中 ， 


字 分 到 数字 0、1、...... 


分 类 把 戏 


< 


最 近 


| 


预 况 


这 个 例子 中 的 分 类 任务 不 


你 能 只 根据 一 个 人 的 家 庭 住 址 ， 


下 面 这 个 分 类 任务 很 有 趣 : 


那个 人 会 向 哪个 政治 党 派 捐赠 吗 ? 很 显然 ， 


能 以 完美 的 精确 度 执行 ， 即 便 是 人 也 不 行 : 一 个 人 的 地 址 并 不 能 透露 
足够 多 的 信息 让 你 预测 这 个 人 的 政治 倾 则 。 不 过 ， 不 管 怎 样 ， 我 们 都 
愿意 训练 一 个 分 类 系统 ， 让 其 仅仅 根据 房屋 地 址 ， 预 测 这 个 人 最 有 可 
能 回 哪 个 政党 捐赠 。 
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要 训练 一 个 分 类 器 ， 计 算 机 需要 一 些 标记 数据 。 在 这 个 例子 中 ， 每 个 数据 样本 (一 个 手写 数 
字 ) 都 带 有 一 个 表明 其 所 属 具 体 数字 的 标签 。 标 签 在 左边 ， 训 练 样本 在 右边 框 内 。 
数据 来 源 ， 乐 康 (LeCun) 等 人 的 MNIST 数 据 。 


下 页 的 图 显示 了 一 些 可 能 被 用 于 这 一 任务 的 训练 数据 。 这 张 图 十 
2008 年 美国 总 统 大 选中 堪 耳 斯 州 一 个 社区 居民 实际 捐赠 的 地 图 。 (也 
许 你 会 对 这 个 社区 的 名 字 感 兴趣 ， 这 有 十 堪 联 斯 州 威 奇 塔 市 学 院 山 社 
区 。) 为 便于 辨认 ， 地 图 上 并 没有 显示 街道 名 ， 但 捐赠 了 的 每 栋 房 屋 


的 实际 地 理 位 置 都 在 地 图 上 进行 了 精确 的 标记 。 向 民主 党 人 捐赠 的 房 
屋 被 标记 为 “D”， 辣 共和 党 人 捐赠 的 房屋 被 标记 为 “R”。 


训练 数据 如 此 之 多 。 当 有 一 个 新 样本 需要 被 分 为 民主 物 人 或 共和 
党 人 时 ， 我 们 要 怎么 做 ? 下 面 的 图 具体 地 展示 了 这 个 例子 。 训 练 数 据 
和 上 一 幅 图 中 的 一 样 ， 但 另外 添加 了 两 处 用 问号 表示 的 新 地 点 。 让 我 
们 首先 关注 上 方 的 问号 。 只 是 和 警 一 眼 ， 不 用 和 莹 试 做 任何 科学 的 事 ， 你 
觉得 这 个 问号 最 后 可 能 属于 哪 一 类 ? 这 个 问号 似乎 被 民主 党 人 捐赠 所 
围绕 ， 因 此 “D? 似 乎 是 个 相当 有 可 能 的 选项 。 那 另 一 个 在 左下 方 的 问 
号 昵 ? 这 个 问号 并 没有 完全 被 共和 和 党 人 捐赠 围绕 ， 但 其 所 在 位 置 更 像 
征 在 共和 党 人 领地 而 非 民 主 和 党 人 领地 内 ， 因 此 “R? 会 是 个 好 推测 。 


人 。“D” 代 表 疝 民主 党 人 捐赠 的 房屋 ,，“R” 代 表 癌 共和 党 人 捐赠 的 
房屋 。 


数据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞 赛 项 目 (Fundrace project) 。 


不 管 你 是 否 相信 ， 我 们 刚刚 掌握 了 迄今 为 止 发 明 的 最 强大 、 最 有 
用 的 图 形 识别 技术 之 一 ， 一 种 被 计算 机 科学 家 称 为 最 近邻 分 类 器 的 方 
法 。“ 最 近邻 "把 戏 做 的 事 ， 正 如 其 名 字 所 表达 的 含义 一 样 。 当 你 获得 
一 个 未 分 类 的 数据 样本 时 ， 首 先 在 训练 数据 中 寻找 该 样本 的 最 近邻 ， 
其 次 将 最 近邻 所 属 的 类 作为 你 的 预测 。 在 下 图 中 ， 这 就 是 推测 离 每 个 
问号 最 近 的 字母 。 


这 一 把 戏 另 一 个 稍微 成 玖 的 版 本 被 称 为 "K 个 最 近邻 ”(K nearest- 
neighbors) ，K 代 表 3 或 5 这 样 的 小 数 子 。 在 这 张 图 中 ， 你 要 检查 问号 
的 K 个 最 近邻 ， 并 选择 在 这 些 邻近 对 象 中 最 受 欢 迎 的 类 。 我 们 可 以 在 
下 图 中 看 到 实例 。 在 这 里 ， 离 问号 最 近 的 一 个 相 邻 对象 是 共和 党 人 捐 
赠 ， 因 此 最 近邻 把 戏 最 简单 的 形式 会 将 这 个 问号 归 为 “<R”。 但 如 果 我 们 
转 而 使 用 3 个 最 近邻 方法 ， 我 们 发 现 其 中 有 两 家 是 民主 党 捐赠 ， 一 家 有 征 
共和 和 党 捐赠 一 一 在 这 一 特定 组 合 的 社区 中 ， 民 主 党 捐赠 要 更 受 欢 迎 ， 
于 是 问号 被 归 为 “D”。 


那么 ， 我 们 该 使 用 多 少 相 邻 对 象 呢 ? 答案 取决 于 要 处 理 的 问题 。 
一 般 来 说 ， 实 际 工作 者 会 笑 试 几 个 不 同 的 值 ， 看 哪个 值 效 采 最 好 。 这 
听 起 来 也 许 不 科学 ， 但 却 反 映 了 有 效 图 形 识别 系统 的 现实 。 有 效 的 图 
形 识别 系统 一 般 生 通过 组 合 运用 数学 洞 见 、 展 好 的 判断 及 实际 经 验 创 
造 出 来 的 。 


最 近邻 把 戏 进行 分 类 。 每 个 问号 都 被 归 为 其 最 相 邻 对 象 所 属 的 类 。 上 面 的 问号 是 “D”， 而 
方 的 问号 则 是 “R”。 
据 来 源 : 《 哈 芬 顿 邮 报 》， 选 金 竞赛 项 目 (Fundrace project) 。 


用 不同 关 型 的 < 最 过" 


到 目前 为 止 ， 我 们 所 着 手 的 问题 是 经 过 特意 挑选 的 ， 以 便 人 简单 、 
直观 地 解释 一 个 数据 样本 成 为 男 一 个 数据 样本 “最 近 ” 邻 的 含义 。 因 为 
每 个 数据 点 都 在 地 图 上 标示 了 出 来 ， 我 们 只 需 使 用 点 与 点 之 间 的 地 理 
距离 ， 束 能 得 出 相距 最 近 的 点 。 但 在 每 个 数据 样本 都 古 像 前 文 图 中 的 
手写 数 子 时， 我们 该 上 怎么 办 呢 ? 我 们 需要 一 些 方法 来 计算 两 个 不 同 手 
写 数 子 示例 之 间 的 “距离 ”下面 的 图 束 展 示 了 这 样 一 种 方法 。 


洋 二 六 


这 一 方法 的 基本 理念 是 衡量 数字 图 像 之 间 的 区 别 度 ， 而 非 它们 之 
间 的 地 理 距 离 。 区 别 度 以 百分比 形式 衡量 一 一 区 别 度 只 有 1% 的 图 像 是 
非常 相近 的 邻 ， 而 区 别 度 在 99% 的 图 像 则 相差 很 远 。 图 中 给 出 了 具体 
例子 。 (在 图 形 识别 任务 中 ， 输 入 的 信息 会 进行 一 些 预 处 理 步 怠 ， 这 
种 情况 很 普 裔 。 在 本 例 中 ， 每 个 数字 者 被 调 整 为 同一 大 小 ， 并 位 于 图 
像 中 心 。) 在 图 中 最 上 方 的 一 行 中 ， 我 们 能 看 到 两 张 不 同 的 手写 2 图 
像 。 通 过 对 这 些 图 像 进 行 某 种 程度 的 “减法 ”"， 我 们 得 到 了 右边 的 图 
像 。 这 张 图 像 的 其 余地 方 都 症 日 色 ， 只 有 这 两 张 图 像 不 同 的 少数 地 方 
为 黑色 。 结 末 显 示 ， 这 张 区 分 度 图 像 只 有 6% 的 地 方 古 黑色 的 ， 因 此 这 
两 个 手写 2 图 像 是 相对 近邻 。 男 一 方面 ， 在 图 中 最 下 方 的 一 行 ， 我 们 能 
看 到 不 同 数 字 图 像 (一 个 2 和 一 个 9) 削减 后 的 结果。 右边 的 区 分 度 图 
像 有 从 多 黑 像素 点 ， 因 为 这 两 张 手写 数字 图 像 在 很 多 地 方 不 同 。 事 实 
上 ， 这 张 区 分 度 图 像 有 21% 的 地 方 是 黑色 的 ， 因 此 这 两 张 手写 图 像 并 
非特 别 临近 的 邻 。 


(6% difference) 


yy (21% differencej] 


计算 两 个 手写 数字 的 “距离 ”。 在 每 一 行 ， 都 要 用 第 一 张 图 减 去 第 二 张 图 ， 并 得 出 右边 的 新 图 
新 图 像 中 突出 了 这 两 张 图 中 的 区 别 。 区 分 度 图 像 中 突出 部 分 所 占 的 百分比 ， 就 能 被 视 为 

原始 图 像 之 间 的 “距离 ”。 

数据 来 源 : 乐 康 (LeCun) 等 人 的 MNIST 数 据 ，1998 年 。 


现在 我 们 了 解 了 如 何 计算 手写 数字 之 间 的 “距离 ”， 那 么 为 它们 建 
立 一 个 图 形 识别 系统 整容 易 了 。 我 们 从 大 量 训练 数据 一 一 束 像 前 文 图 


中 的 手写 数字 一 样 ， 但 例子 要 多 得 多 一 开始 。 这 类 图 形 识别 系统 的 
标准 系统 可 能 会 使 用 十 万 个 标记 例子 。 当 给 予 系 统一 个 未 标记 的 新 手 
写 数字 时 ， 系 统 会 在 十 万 个 例子 中 搜寻 ， 以 找到 一 个 和 被 分 类 的 例子 
最 接近 的 邻 。 记 住 ， 当 我 们 在 这 里 说 “最 近邻 时， 我 们 真正 说 的 是 最 
小 的 区 分 度 ， 通 过 上 图 中 的 方法 计算 。 未 标记 数字 会 被 打上 和 最 近邻 
一 样 的 标签 。 


结果 表明 ， 使 用 这 种 “最 近邻 ”距离 方法 的 系统 效果 相当 好 ， 精 确 
度 接近 97%。 人 研究 人 员 们 投入 了 巨大 精力 去 寻找 更 加 成 熟 的 “最 近 
邻 ?距离 定义 。 运 用 最 先进 的 距离 衡量 法 ， 最 近邻 分 类 器 在 手写 数字 上 
的 精确 度 能 超过 99.5%。 这 一 精确 度 能 和 复杂 得 多 的 图 形 识别 系统 相 
比 ， 比 如 名 字 很 好 听 的 “支持 向 量 机 ” (support vector machine) 和 “ 回 
旋 神 经 网 络 ” (convolutional neural network) 。 最 近邻 把 戏 是 计算 机 科 
学 的 一 个 真正 的 奇迹 ， 它 将 质心 悦目 的 简 涪 性 和 令 人 印象 深刻 的 高 效 
性 结合 在 了 一 起 。 


之 前 我 曾 强 调 ， 图 像 识 别 系统 分 为 两 个 阶段 运行 :学习 (训练 ) 
阶段 会 处 理 训练 数据 ， 提 取 类 别 中 的 一 些 特性 ， 分 类 阶段 会 为 未 标记 
的 新 数据 分 类 。 那 么 ， 我 们 此 前 审视 的 最 近邻 分 类 器 的 学 习 阶 段 呢 ? 
似乎 尽管 我 们 获得 了 训练 数据 ， 却 并 未 费力 气 去 从 中 学 得 任何 东西 ， 
而 是 直接 使 用 最 近邻 把 戏 跳 到 了 分 类 阶段 。 这 正 是 最 近邻 分 类 占 的 特 
殊 属性 ， 它们 无 须 任 何 详尽 的 学 习 阶 段 。 在 下 一 部 分 ， 我 们 将 研究 男 
一 种 分 类 器， 在 其 中 学 习 扮 演 一 个 远 为 重要 的 角色 。 


20 个 问题 把 戏 ， 决 全 树 


“20 个 问题 "游戏 对 计算 机 科学 家 有 一 种 特别 的 吸引 力 。 在 这 个 游 
戏 中 ， 一 名 玩家 想 着 一 个 物体 ， 而 其 他 玩家 必须 依靠 不 超过 20 个 是 非 
问题 的 管 案 猜 测 这 个 物体 的 映 份 。 你 甚至 能 天 到 可 以 和 你 玩 20 个 问题 


游戏 的 小 型 手持 设备 。 尽 管 这 个 游戏 大 多 数 时 候 被 用 于 取乐 儿童 ， 但 
成 年 人 玩 这 个 游戏 也 能 获得 令 人 惊讶 的 好 人 处。 在 玩 这 个 游戏 一 段 时 间 
后 ， 你 开始 意识 到 有 "好 问题 ?和 * 坏 问题 ”。 好 问题 肯定 能 给 你 大 量 “ 信 
息 ”( 不 管 这 些 信息 意味 着 什么 ) ， 而 坏 问 题 则 不 能 。 比 如 ， 第 一 个 问 
题 问 “ 它 是 铜 做 的 吗 *”， 束 是 个 坏 主 意 ， 因 为 答案 十 “不 是 *"， 可 能 性 的 
范 明 只 被 缩小 了 一 点 点。 这 些 有 关 好 问题 和 坏 问 题 的 直觉 处 于 一 个 极 
有 吸引 力 的 领域 言 恕 理论 学 一 一 的 核心 。 它 们 同样 也 是 一 种 简 
单 、 强 大 的 图 形 识 别 技术 一 一 决策 树 一 一 的 核心 。 


决策 树 基 本 上 就 古 一 个 提前 计划 的 20 个 问题 游戏 。 下 面 的 图 显示 
了 一 个 小 例子 。 这 是 一 个 决定 钙 否 带 伞 的 决策 树 。 你 只 要 从 决策 树 顶 
部 开始 ， 按 照 问 题 的 答案 一 路 往 下 即 可 。 当 你 到 达 决 策 树 底部 的 一 个 
框 时 ， 你 也 就 得 到 了 最 终结 末 。 


人 不 
[um | 


Pol 


Pll 


-下 
号 
“我 该 带 伞 吗 ” 的 决策 树 。 
你 也 许 在 想 ， 这 和 图 形 识 别 及 分 类 有 什么 关系 ? 答案 是 ， 如 果 你 


有 足够 多 的 训练 数据 ， 系 统 可 能 会 学 习 一 个 能 进行 精确 分 类 的 决策 
树 。 


让 我 们 来 研究 一 个 例子 ， 这 个 例子 基于 一 个 人 们 知之 甚 少 但 却 极 
其 重要 的 问题 一 一 网 络 二 圾 。 我 们 在 第 三 章 中 提 到 过 它 ， 一 些 肆 意 妻 
为 的 网 站 操作 人 员 试 图 通过 人 为 制造 链 同 特定 页 面 的 超 链接 ， 操 纵 搜 
索引 擎 的 排名 算法 。 这 些 狭 许 的 网 站 管理 员 使 用 的 一 个 相关 策略 ， 台 
征 创建 拥有 特别 修饰 内 容 ， 但 对 人 一 点 用 处 都 没有 的 网 页 。 你 可 以 在 
下 页 的 图 中 看 到 一 人 小段 取 目 一 个 真实 网 络 垃圾 页 面 的 内 容 。 注 意 ， 那 
张 独 中 的 文本 没有 任何 意义 ， 但 却 重复 列 出 了 和 在 线 学习 有 关 的 流行 
搜索 术语 。 这 个 网 络 垃圾 网 页 是 为 了 提高 其 链 丫 的 特定 在 线 学 习 网 站 
的 排名 。 
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节选 自 一 个 “网 络 垃圾 "页面 。 这 个 页 面 没有 任何 对 人 类 有 用 的 信息 一 一 其 唯一 目的 就 是 操纵 
网 络 搜索 排名 。 
资料 来 源 : 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


目 然 ， 搜 索引 警 要 伦 费 大 量力 气 去 竹 试 辨别 和 消除 网 络 垃圾 。 这 
也 是 图 形 识别 的 完美 应 用 : 我们 能 取得 大 量 训练 数据 (在 网 络 垃圾 的 
例子 中 就 是 网 页 ) ， 手 动 将 它们 标记 为 “垃圾 ”或 “ 非 垃 圾 *"， 并 训练 菜 
种 分 类 絮 。 这 正 古 微软 研究 院 的 一 些 科学 家 在 2006 年 做 的 事 。 他 们 发 


现 ， 对 这 个 特殊 问题 效果 最 好 的 分 类 器 是 人 们 喜爱 已 久 的 决策 树 。 下 
面 的 图 展示 了 他 们 得 出 的 决策 树 的 一 小 部 分 。 


尽管 完整 的 决策 树 依赖 于 许多 不 同 的 属性 ， 下 面 的 图 展示 的 部 分 
决策 树 专 注 于 页 面 内 文字 的 流行 度 。 网 络 垃圾 制造 者 喜欢 在 页 面 中 加 
入 大 量 流行 词 ， 以 提升 他 们 网 页 的 排名 ， 因 此 流行 词 占 比 较 小 ， 也 预 
示 该 网 页 是 垃圾 的 概率 较 低 。 这 解释 了 决策 树 的 第 一 个 决策 ， 其 余 决 
策 避 人 循 类 似 的 逻辑 。 这 个 决策 树 的 精确 度 在 90% 左 右 一 一 离 完 美 相 差 
很 远 。 但 不 管 怎 样 ， 这 是 一 个 对 抗 网 络 垃圾 制造 者 的 无 价 武 器 。 


排名 前 1 000 的 词 在 
页 面 中 所 占 的 百分比 


排名 前 500 的 词 在 页 
面 中 所 占 的 百分比 


出 现在 页 面 中 的 前 人 
500 个 词 的 百分比 网 


少 于 15% 


辨别 网 络 垃圾 的 决策 树 的 一 部 分 。 点 代表 部 分 决策 树 出 于 简洁 的 目的 省 略 了 。 
资料 来 源 ， 乐 陶 拉 斯 (Ntoulas) 等 人 ，2006 年 。 


要 重点 理解 的 不 是 决策 树 本 身 的 细节 ， 而 是 这 一 事实 ， 整 个 决策 
树 是 由 计算 机 程序 基于 约 1.7 万 个 网 页 上 的 训练 数据 自动 生成 的 。 这 
些 “训练 "页 面 被 真人 分 为 "垃圾 "或 " 非 垃圾 ”。 好 的 图 形 识别 系统 需要 
投入 巨大 的 人 力 ， 但 这 是 一 次 性 投入 ， 并 能 产生 长 期 回报 。 


和 我 们 之 前 讨论 过 的 最 近邻 分 类 郁 相 反 ， 决 策 树 分 类 需 的 学 习 阶 
段 非常 庞大 。 这 个 学 习 阶段 如 何 进 行 ? 其 主要 思想 和 规划 好 一 个 20 个 
问题 游戏 一 样 。 计 算 机 测试 大 量 可 能 的 第 一 个 问题 ， 寻 找 一 个 能 得 出 
最 佳 的 可 能 信息 的 问题 。 然 后 ， 计 算 机 将 训练 样本 分 为 两 组 ， 取 决 于 
样本 对 第 一 个 问题 的 答案 ， 并 产生 第 二 个 对 这 两 个 组 都 最 佳 的 可 能 问 
题 。 计 算 机 一 直 用 这 种 方法 往 决 策 树 底 部 前 进 ， 永 远 基 于 达到 决策 树 
某 一 点 的 训练 示例 集合 来 决定 最 佳 问 题 。 如 采 示 例 集合 在 某 一 点 变 
得 “ 纯 姜 ”"， 也 就 是 说 ， 集 合 中 只 包含 垃圾 页 面 或 非 垃 圾 页 面 一 一 计算 
机 束 能 停止 生成 新 问题 ， 输 出 对 应 剩余 页 面 的 答案 。 


总 之 ， 决 策 树 分 类 器 的 学 习 过 程 可 以 很 复杂 ， 但 它 是 全 目 动 的 ， 
而 且 你 只 需要 做 一 次 。 在 此 之 后 ， 你 吏 得 到 了 目 己 需要 的 决策 树 ， 而 
分 类 阶段 则 极其 简单 :就 像 20 个 问题 游戏 一 样 ， 你 按照 问题 的 管 案 问 
决 朱 树 的 部 移动 ， 直 到 抵达 结果 框 。 基 本 上 ， 只 需要 少数 问题 ， 因 此 
分 类 阶段 极度 高 效 。 同 最 近邻 方法 相 比 ， 最 近邻 方法 在 学 习 阶段 无 须 
费力 ， 但 分 类 阶段 要 求 我 们 将 需要 分 类 的 每 个 东西 和 所 有 训练 示例 进 
行 比 对 (手写 数字 任务 中 的 示例 数 是 10 万 个 ) 。 


在 下 一 部 分 ， 我 们 会 碰 到 神经 网 络 : 它 也 是 一 种 图 形 识别 技术 ， 
其 学 习 阶 段 不 仅 重要 ， 而 且 直 接受 到 人 类 和 其 他 动物 从 环境 中 学 习 的 
方法 的 局 发 。 


种 经 网 络 


从 第 一 台数 字 计 算 机 的 创造 开始 ， 人 脑 令 人 印象 深刻 的 能 力 束 级 
引 并 启发 了 计算 机 科学 家 。 最 早 使 用 计算 机 模拟 人 脑 的 讨论 之 一 ， 是 
由 英国 科学 家 阿兰 :图 灵 (Alan Turing) 发 起 的 ， 图 灵 还 是 一 名 顶级 的 
数学 家 、 工 程 师 和 译 电 人 码 专 家 。 图 灵 于 1950 年 发 表 的 经 典 论文 《计算 
机 器 与 智能 》 (Computing Machinery and Intelligence) ， 以 其 对 计算 
机 有 是否 能 伪装 成 人 类 的 哲学 探讨 而 闻名 于 世 。 


个 标准 生物 神经 元 。 电 子 信号 按 图 中 箭头 所 示 方 向 流动 。 只 有 在 输入 信号 足够 大 的 情况 
下 ， 神 经 元 才 会 传输 输出 信号 。 


这 篇 论文 介绍 了 一 种 评 信 计算 机 和 人 之 间 相 似 性 的 科学 方法 ， 也 
就 是 如 今 众所周知 的 “图 灵 测 试 ”(Turing Test) 。 但 在 这 篇 论文 的 一 段 
不 怎么 知名 的 文字 里 ， 图 灵 直 接 分 析 了 使 用 计算 机 模拟 人 脑 的 可 能 
性 。 他 估计 只 需要 十 几 G ( 千 兆 字 节 ) 的 内 存 就 足够 了 。 


60 年 后 ， 人 们 普遍 认为 图 灵 极 大 地 低估 了 模拟 人 脑 所 需 的 工作 
量 。 目 那 篇 论文 发 表 以 后 ， 计 算 机 科学 家 们 使 用 了 多 种 不 同 的 方法 寻 
求 达成 这 一 目标 。 其 中 一 个 结果 就 是 人 工 神经 网 络 领 域 (artificial 
neural networks) ， 简 称 为 神经 网 络 。 


是 生物 神经 网 络 


BE 


为 帮助 我 们 理解 人 工 神经 网 络 ， 我 们 首先 要 对 真实 的 生物 神经 网 
络 如 何 运行 有 大 致 了 解 。 动 物 大 脑 由 神经 元 细胞 构成 ， 每 个 神经 元 和 
其 他 许多 神经 元 相连 。 神经 元 能 通过 这 些 连接 发 送 电子 和 化 学 信号 。 
其 中 一 些 连接 被 建立 用 于 接收 来 目 其 他 神经 元 的 信号 ; 余下 的 连接 则 
向 其 他 神经 元 传输 信号 ( 见 上 图 ) 。 


描述 这 些 信 和 号 的 一 种 简单 方法 是 ， 在 任何 时 刻 ， 一 个 神经 元 要 
么 “闲置 ”(idle) ， 要 么 “开火 ”(firing) 。 当 它 闲置 时 ， 神 经 元 并 没有 
传输 任何 信号 ; 当 它 开火 时 ， 神 经 元 通过 其 所 有 外 向 连接 频繁 发 送信 
号 脉冲 。 和 神经 元 如 何 决 定 何 时 开火 呢 ? 这 取决 于 其 接收 到 的 信号 的 强 
度 。 基 本 上 ， 如 果 所 有 传 入 信号 的 总 强度 足够 大 ， 神 经 元 就 会 开始 开 
火 ; 否则 ， 神 经 元 仍 会 闲置 。 粗 略 地 来 说 ， 神 经 元 会 将 其 接收 的 所 有 
输入 “ 相 加 ”， 在 总 和 足够 大 时 开火 。 这 一 描述 的 一 个 重要 修饰 之 处 
是 ， 神 经 元 实际 上 有 两 种 输入 ， 分 别 为 兴奋 性 输入 (excitatory) 和 抑 
制 性 输入 (inhibitory) 。 兴 奋 性 输入 的 强度 会 相 加 ， 而 抑制 性 输入 则 
会 从 总 数 中 减 去 ， 因 此 一 个 强烈 的 抑制 性 输入 倾 回 于 阻止 神经 元 开 
火 。 


一 个 解决 市 们 问 题 的 神经 网 络 


人 工 神 经 网 络 驶 是 一 个 代表 一 小 部 分 人 脑 的 计算 机 模型 ， 运 算 高 
度 简 化。 我们 在 一 开始 会 讨论 一 个 人 工 神经 网 络 的 基础 版 本 ， 这 个 基 
础 版 本 在 处 理 之 前 思考 的 带鱼 问题 上 效果 民 好 。 之 后 ， 我 们 将 运用 一 
个 拥有 成 熟 功能 的 神经 网 络 来 处 理 “ 太 阳 镜 问题 ”。 


我 们 基础 模型 中 的 每 个 神经 元 都 有 一 个 号 码 ， 这 个 号 码 被 称 为 神 
经 元 的 阐 值 (threshold) 。 当 模型 运行 时 ， 每 个 神经 元 都 将 其 接收 的 
输入 相 加 。 如 有 果 输 入 总 量 大 于 或 等 于 浆 值 ， 神 经 元 束 开 火 ， 否 则 束 仍 


然 有 内置。 下 图 就 展示 了 一 个 神经 网 络 ， 处 理 我 们 之 前 思考 的 极其 简单 
的 市 们 问题 。 在 图 的 左边 ， 有 三 个 输入 进入 网 络 。 你 可 以 将 这 些 输 入 
想象 为 动物 脑 中 的 感觉 输入 。 和 我 们 的 眼睛 及 耳 东 触发 并 发 送 至 脑 部 
神经 元 的 电子 及 化 学 信号 一 样 ， 图 中 三 个 输入 向 人 工 神 经 网 络 中 的 神 
经 元 发 送信 号 。 这 个 网 络 中 的 三 个 输入 都 是 兴奋 性 输入 。 如 果 相 对 应 
的 情况 古 真 的 ， 那 么 每 个 输入 都 会 传输 强度 +1 的 信和 号。 比如 ， 如 采 现 
在 多 云 ， 那 么 被 标记 为 “多 云 ” 的 输入 ， 会 发 送 一 个 强度 +1 的 兴奋 性 信 
号 ; 有 反之， 它 不 会 发 送 任何 东西 ， 也 就 相当 于 一 个 强度 为 0 的 信和 号。 


如 时 我 们 忽略 输入 和 输出 ， 这 个 网 络 只 有 两 个 神经 元 ， 每 个 神经 
元 的 半 值 都 不 同 。 湿 润 度 和 云 量 输入 的 神经 元 ， 只 有 在 两 个 输入 都 酒 
跃 时 才 开 火 《假设 其 冰 值 为 2) ， 而 另 一 个 神经 元 只 要 输入 之 一 是 活跃 
的 就 能 开火 (假设 其 值 为 1) 。 这 样 做 的 效 采 在 下 图 中 展示 了 出 来 ， 你 
能 在 其 中 看 到 最 终 输 出 是 如 何 根据 输入 改变 的 。 


多 云 ， 但 既 不 潮湿 也 没 下 雨 。 


最 上 方 的 图 : 一 个 解决 带 伞 问题 的 神经 网 络 。 下 


火 ” 的 神经 元 、 输 入 和 输出 都 加 粗 了 。 在 中 间 的 


两 张 图 : 运行 中 的 带 伞 神经 网 络 。* 


图 


中 ， 输 入 状态 是 未 下 月 


云 ， 产生 了 带 伞 的 决策 。 在 最 下 面 的 图 中 ， 唯 一 


策 。 


三， 但 却 既 潮湿 又 多 


活跃 输入 是 : “多 云 ? 


”结果 是 不 带 伞 的 决 


将 由 一 个 神经 网 络 “ 识 别 ” 的 人 脸 。 事 实 上 ， 与 识别 人 脸 不 同 的 是 ， 我 们 将 处 理 比 识别 人 脸 更 
简单 的 问题 ， 判 断 一 张 人 脸 上 是否 戴 了 太阳 镜 。 来 源 : 汤姆 : 米 切 尔 (Tom Mitchell) ，《 机 器 
学 习 》 (Machine Leaming) ， 考 格 劳 - 硕 尔 出 版 社 (1998 年 ) 。 感 谢 授 权 使 用 该 图 像 。 


到 这 里 ， 你 也 许 该 回头 再 看 看 前 文中 用 于 解决 带 伞 问题 的 决策 
树 。 结 果 显 示 ， 当 给 予 相同 的 输入 时 ， 决 策 树 和 神经 网 络 产生 了 相同 
的 结果 。 对 于 这 个 非常 冯 单 的 人 为 问题 而 言 ， 决 策 树 作为 代表 很 可 能 
要 更 合适 。 但 我 们 接 下 来 将 探究 一 个 很 复 洒 的 问题 ， 它 将 展示 神经 网 
络 的 真正 力量 。 


一 个 解决 太阳 镜 问 题 的 神经 网 络 


作为 一 个 能 通过 使 用 神经 网 络 成 功 解决 的 现实 问题 的 例子 ， 我 们 
将 处 理 被 称 为 “太阳 镜 问 题 * 的 任务 。 这 一 问题 的 输入 是 一 个 低 分 辨 率 
人 脸 照 请 的 数据 库 。 数 据 库 中 的 人 脸 角 度 不 一 : 有 些 人 直 视 镜头 ， 有 
些 人 的 头 仰 着 ， 有 些 人 看 问 左 边 或 右边 ， 还 有 一 些 人 戴 着 太阳 镜 。 上 
图 显示 了 其 中 一 些 例子 。 


在 这 里 ， 我 们 故意 使 用 低 分 辨 率 照片 ， 以 便 让 我 们 的 神经 网 络 容 
易 描 述 。 事 实 上 ， 这 些 图 片 的 宽 和 高 都 只 有 30 像 系 。 不 过 ， 我 们 很 快 
谍 会 知道 ， 神 经 网 络 在 如 此 粗粮 的 输入 下 也 能 得 出 出 人 意料 的 好 结 
果 。 


这 个 人 脸 数据 库 可 以 通过 神经 网 络 来 执行 标准 面部 识别 一 一 即 判 
定 照片 中 人 的 吴 份 ,不管 这 个 人 有 是否 看 同 镜 头 或 戴 太 阳 镜 。 但 在 这 
里 ,我 们 要 处 理 一 个 更 容易 的 问题 ， 以 更 清晰 地 展示 神经 网 络 的 属 
性 。 我 们 的 目标 是 判定 一 张 人 脸 是 否 戴 太阳 镜 。 


me 输入 
{是 =1， 否 =0) 
二 
-ad “(太阳 镜 ? 


一 个 解决 太阳 镜 问 题 的 神经 网 络 。 


上 图 显示 了 这 个 网 络 的 基本 结构 。 这 是 一 张 概 括 图 ， 并 没有 显示 
实际 网 络 中 使 用 的 每 个 神经 元 或 每 个 连接 。 这 张 图 最 明显 的 特点 就 是 
石 边 的 那个 输出 神经 元 ， 如 果 图 像 含 有 太阳 镜 ， 这 个 输出 神经 元 就 产 
生 一 个 1， 反 之 则 为 0。 在 网 络 中 央 ， 有 三 个 直接 从 输入 图 像 接 收 信和 号 
并 向 输出 神经 元 发 送信 号 的 神经 元 。 这 个 网 络 最 复杂 的 部 分 在 图 左 
边 ， 我 们 可 以 看 到 从 输入 图 像 到 中 央 神 经 元 的 连接 。 尽 管 并 没有 显示 
所 有 连接 ， 实 际 网 络 中 输入 图 像 的 每 个 像素 和 每 个 神经 元 都 有 连接 。 
快速 计算 后 ， 你 会 发 现 连接 数 相当 庞大 。 记 得 我 们 使 用 的 图 像 宽 高 都 
为 30 像 素 吧 。 因 此 ， 即 便 以 现代 标准 来 看 这 些 图 像 很 小 ， 但 每 张 图 片 
也 都 包含 30 x 30 = 900 个 像素 。 而 图 中 有 三 个 中 央 神 经 元 ， 也 就 是 
说 ， 这 个 网 络 的 左边 总 共有 3 x 900 = 2 700 个 连接 。 


输入 图 像 


这 个 网 络 的 结构 是 如 何 决定 的 呢 ? 这 些 神 经 元 能 按照 不 同 的 方式 
相连 吗 ? 是 的 ， 有 许多 种 不 同 的 网 络 结构 能 得 出 太阳 镜 问题 的 好 绪 
果 。 一 个 网 络 结构 的 选择 ， 通 常 是 基于 之 前 运行 民 好 的 经 验 。 和 以 前 
一 样 ， 我 们 再 一 次 看 到 ， 和 图 形 识别 系统 打交道 需要 洞 见 和 直觉 。 


不 幸 的 是， 我 们 很 快 孢 会 看 到 ， 在 网 络 正 确 运 行 之 前 ， 我 们 选择 
的 网 络 中 的 所 有 2 700 个 连接 ， 都 要 按 某 种 方式 “调整 ”。 我 们 如 何 才 有 
可 能 处 理 这 种 调整 数 以 千 计 不 同 连接 的 复 洒 度 ? 答案 是 调整 会 通过 学 
习 训 练 示例 目 动 完成 。 


l 增加 加 权 信 和 号 


正如 我 之 前 提 到 的 ， 我 们 用 于 解决 市 全 问题 的 网 络 是 一 个 基础 版 
人 工 神经 网 络 。 对 于 太阳 镜 问 题 ， 我 们 将 添加 三 个 重要 的 增强 措施 。 


增强 措施 1: 信和 号 只 能 携带 0 和 1 之 间 的 任意 值 。 这 和 带 伞 网 
络 相 反 ， 诗 全 网 络 中 的 输入 和 输出 信号 被 限制 在 0 和 1， 不 能 携带 任何 
中 间 值 。 换 言 之 ， 新 网 络 中 的 信号 值 可 以 是 0.0023 或 0.755。 为 落实 到 
具体 ， 想 想 太 阳 镜 例子 。 输 入 图 像 中 一 个 像素 的 亮度 对 应 通过 那个 像 
素 连接 输出 的 信号 值 。 因 此 ， 一 个 全 白 的 像素 会 发 送 值 1， 而 一 个 全 黑 
的 像素 会 发 送 值 0。 不 同 灰 度 会 对 应 地 产生 0~1 的 值 。 


增强 措施 2: 输入 总 和 通过 加 权 求 和 计算 。 在 带 伞 网 络 中 ， 
神经 元 在 没有 用 任何 方法 蔡 换 输入 的 情况 下 将 输入 相 加 。 不 过 ， 在 实 
际 中 ， 神 经 网 络 考虑 了 每 个 连接 的 强度 不 同 。 连 接 的 强度 由 一 个 数字 
代表 ， 这 个 数字 被 称 为 该 连接 的 权重 。 大 的 正 权 重 (如 51.2) 代表 了 
强烈 的 兴奋 性 连接 一 一 当 信 号 罕 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 
可 能 会 开火 。 大 的 负 权 重 (如 -121.8) 代表 了 强烈 的 抑制 性 连接 
言 号 容 过 这 样 的 连接 时 ， 其 下 游 神经 元 极 有 可 能 依然 内 置 。 权 重 较 小 
(如 0.03 或 -0.0074) 的 连接 对 其 下 游 神经 元 是 否 开 火影 响 很 小 。 (在 
现实 中 ， 权 重 被 定义 为 “大 ”或 “小 ”只 是 相对 其 他 权重 而 言 ， 因 此 ， 只 
有 我 们 假设 这 些 数 字 示 例 在 同一 神经 元 的 连接 上 ， 这 里 给 出 的 数字 示 
例 才 有 意义 。) 当 一 个 神经 元 计算 其 输入 的 总 和 时 ， 每 个 输入 信号 在 


加 进 总 和 之 前 ， 都 会 和 其 连接 的 权重 相 乘 。 因 此 ， 大 权重 的 影响 力 要 
比 小 权重 的 大 ， 也 让 兴奋 性 和 抑制 性 信号 有 可 能 相互 抵消 。 


增强 措施 3: 立 值 的 作用 被 软化 。 闵 值 不 再 将 神经 元 的 输出 
限定 在 全 开 (比如 1) 或 全 关 (比如 0) 上 ; 输出 可 以 是 0 和 1 之 间 ( 包 
含 0 和 1) 的 任意 值 。 当 输入 总 和 远 低 于 阐 值 和 时， 输出 会 接近 于 0， 当 输 
入 总 和 远 高 于 病 值 时 ， 输 出 接近 于 1。 但 当 输 入 总 和 接近 病 值 时 ， 会 产 
生 一 个 接近 0.5 的 中 间 输 出 。 比 如 ,假设 一 个 神经 元 的 阐 值 是 6.2， 强 度 
为 122 的 输入 可 能 会 得 到 0.995 的 输出 ， 这 古 因 为 输入 远大 于 病 值 。 但 
强度 为 6.1 的 输入 接近 病 值 ， 则 其 可 能 会 产生 一 个 0.45 的 输出 。 这 种 效 
果 在 所 有 神经 元 上 都 有 ， 包 括 最 终 输 出 神经 元 。 在 我 们 的 太阳 镜 应 用 
中 ， 这 意味 着 ， 输 出 值 接近 1 强烈 暗示 了 存在 太阳 镜 ;， 而 输出 值 接近 
0， 则 强烈 暗示 了 不 存在 太阳 镜 。 


信号 () 5 
.9 
“权重 10 


信号 0.6 x 权重 0.5 8.1 阅 值 2.5 0.99 
04x 权重 一 


信号 在 相 加 前 会 乘 以 一 个 连接 权重 。 


Th 
上 


上 图 展示 了 带 有 全 部 三 种 增强 措施 的 新 型 人 工 神经 元 。 这 个 神经 
元 接收 来 自 三 个 像素 的 输入 : 一 个 明亮 像素 (信号 强度 0.9) 、 一 个 中 
等 明亮 的 像素 (信号 强度 0.6) 和 一 个 颜色 较 深 的 像素 (信号 强度 
0.4) 。 这 三 个 像素 跟 神 经 元 连接 的 权重 分 别 是 10、0.5 和 -3。 这 些 信 
号 先 和 权重 相 乘 再 相 加 ， 得 到 这 个 神经 元 的 输入 信号 忌 强 度 为 8.1 。 
为 8.1 要 远大 于 神经 元 的 阐 值 2.5， 因 此 输出 非常 接近 于 1 。 


时 通过 学 习 调 整 一 个 神经 网 络 


国 


现在 我 们 已 经 准备 好 去 说 明 ， 调 整 一 个 人 工 神经 网 络 究竟 意味 着 
什么 。 首 先 ， 每 个 连接 ( 记 住 ， 可 能 会 有 成 干 上 万 个 连接 ) 都 必须 有 
权重 值 ， 这 个 值 可 以 为 正 (兴奋 性 ) ， 也 可 以 为 负 (抑制 性 ) 。 其 
次 ， 每 个 神经 元 都 必须 有 个 合适 的 值 作为 阐 值 。 你 可 以 将 权重 和 阐 值 
想象 成 网 络 中 的 小 刻度 盘 ， 每 个 刻度 副 痢 能 像 电 灯 开 关中 的 调 光 絮 一 
样 调 上 调 下 。 


手动 调 市 这 些 刻度 盘 需 要 耗费 的 时 间 会 令 人 望而却步 。 相 反 ， 我 
们 可 以 使 用 计算 机 在 学 习 阶 段 设置 这 些 刻度 盘 。 最 开始 ， 这 些 刻 度 姐 
的 值 都 是 随机 值 。 (这 看 起 来 也 许 非常 随意 ， 但 专业 人 士 在 实际 应 用 
中 也 是 这 么 做 的 。) 之 后 ， 计 算 机 会 获得 第 一 个 训练 样本 。 在 这 个 例 
子 中 ， 第 一 个 训练 样本 是 一 个 可 能 戴 也 可 能 没 戴 太阳 镜 的 人 的 照片 。 
这 个 样本 会 通过 这 个 网 络 处 理 ， 产 生 一 个 在 0O 和 1 之 间 的 输出 值 。 然 
而 ， 因 为 这 个 样本 是 训练 样本 ， 我 们 知道 网 络 理 应 得 出 的 “目标 ” 值 。 
关键 点 在 于 稍微 调整 一 下 网 络 ， 让 其 输出 更 接近 于 想 要 的 目标 值 。 比 
如 ， 假 设 第 一 个 训练 样本 恰巧 有 太阳 镜 。 那 么 目标 值 束 是 1°。 因此 ， 整 
个 网 络 中 的 所 有 刻度 副 剖 要 稍微 调 证 一下， 以 便 让 网 络 输出 值 朝 目标 
值 1 的 方面 转移 。 如 果 第 一 个 训练 样本 不 包 仿 太阳镜， 每 个 刻度 盘 部 要 
绷 相 反 的 方 癌 移 去 一 点 点 ， 以 便 让 输出 值 问 目标 值 0 移 动 。 你 应 该 已 经 
知道 这 个 过 程 是 如 何 进 行 的 了 吧 。 网 络 一 个 接 一 个 地 获得 训练 样本 ， 
每 个 刻度 盘 都 要 被 调整 以 提升 网 络 效 能 。 在 多 次 运行 完 所 有 训练 样本 
后 ， 网 络 的 效能 基本 上 会 达到 很 高 水 平 ， 而 学 习 阶 段 也 以 将 当时 的 刻 
度 盘 配置 而 结束 。 


、 


需要 一 些 超出 本 书 范 围 的 数学 。 我 们 需要 的 工具 是 多 变量 微 积 分 
(multivariable calculus) ， 这 一 般 是 在 大 学 中 等 数学 课程 中 教授 。 是 
的 ， 数 学 的 确 重要 ! 还 有 ， 注 意 我 在 这 里 描述 的 方法 ， 专 家 称 之 为 “ 随 


实际 上 ， 如 何 计算 刻度 副 的 这 些 细微 调整 的 细 节 相当 重要 ， 但 这 


机 梯度 下 降 ” (stochastic gradient descent) ， 而 这 只 是 用 于 训练 神经 网 
络 的 多 种 公认 方法 之 一 。 


所 有 这 些 方法 都 有 相同 的 特点 ， 让 我 们 专注 于 大 局 吧 : 神经 网 络 
的 学 习 阶段 相当 耗费 精力 ， 涉 及 对 所 有 权重 和 病 值 的 反复 调整 ， 直 到 
网 络 在 训练 样本 上 运作 民 好 。 不 过 ， 所 有 这 些 都 能 被 计算 机 目 动 完 
成 ， 而 结果 束 是 一 个 能 简单 高 效 地 对 狐 样 本 分 类 的 网 络 。 


让 我 们 来 看 看 神经 网 络 如 何 解 决 太阳 镜 问 题 。 一 旦 学 习 阶 段 完 
成 ， 从 输入 图 像 到 中 央 神 经 元 的 成 千 上 万 个 连接 ， 都 会 被 赋予 一 个 数 
字 权 重 。 如 果 我 们 能 将 所 有 像素 的 连接 集中 到 一 个 神经 元 上 (比如 最 
上 方 的 ， 我 们 就 能 通过 将 它们 转化 为 一 张 图 片 ， 从 而 非常 方便 直观 
地 看 到 这 些 权 重 。 权 重 的 视觉 化 在 下 图 中 显示 ， 图 中 所 有 像素 都 只 连 
接 到 一 个 中 央 神 经 元 上 。 在 这 张 视觉 化 图 中 ， 强 烈 的 兴 硼 性 连接 ( 比 
如 大 的 正 权重 连接 ) 显示 为 白色 ， 而 强烈 的 抑制 性 连接 (比如 大 的 负 
权重 连接 ) 显示 为 黑色 。 不 同 灰 度 的 颜色 代表 中 间 强 度 的 连接 。 每 个 
权重 都 显示 在 与 其 相对 应 的 像素 点 上 。 仔 细 看 一 下 图 。 在 太阳 镜 通 肖 
会 出 现 的 区 域 有 一 个 非常 明显 的 由 强烈 抑制 性 权重 组 成 的 地 市 一 一 事 
实 上 ， 你 几乎 可 以 肯定 这 张 权重 图 真 的 包含 菜 副 太阳 锐 的 图 像 。 我 们 
可 以 称 之 为 太阳 镜 的 “4] 影 "”， 因 为 它们 并 不 代表 任何 现实 中 存在 的 特 
定 太 阳 镜 。 


太阳 镜 网 络 中 连 向 一 个 中 央 神 经 元 的 输入 权重 〈 比 如 强度 ) 。 


考虑 到 设置 权重 并 未 使 用 任何 人 类 知识 告知 太阳 镜 的 一 般 颜 色 和 
位 置 ， 这 个 幻影 的 出 现 给 入 的 印象 相当 深刻 ， 人 类 提供 的 信息 只 有 一 
系列 训练 图 像 ， 每 个 图 像 都 有 个 简单 的 “是 ?或 * 否 ”表明 其 中 征 否 有 太 
阳 镜 。 太 阳 镜 的 幻影 从 学 习 阶 段 反 复 调 整 的 权重 中 目 动 译 现 出 来 。 


男 外 ， 图 片 的 其 他 部 分 也 有 许多 明显 的 强权 重 ， 从 理论 上 讲 ， 这 
些 权 重 不 应 该 对 太阳 镜 决 策 有 影响 。 我 们 怎么 才能 解释 这 些 没有 意 
义 、“ 明 显 是 随机 的 连接 呢 ? 在 这 里 ， 我 们 遇 到 了 人 工 智 能 研究 人 员 在 
过 去 几 十 年 中 学 到 的 最 重要 的 教训 之 一 : 看 似 祝 能 的 行为 有 可 能 从 看 
似 随 机 的 系统 中 译 现 出 来 。 如 果 我 们 有 能 力 进 入 人 脑 ， 研 究 神 经 元 之 
间 连 接 的 强度 ， 其 中 绝 大 部 分 连接 都 会 表现 得 很 随机 。 然 而 ， 当 作为 
集合 体 行 动 时 ， 这 些 连 接 强 度 的 松散 集合 产生 了 人 的 智能 行为 ! 


分 类 正确 


太阳 镜 网 络 的 结果 。 
资料 来 源 ， 汤 姆 米 切 尔 (Tom Mitchel) ，《 机 器 学 习 》 
出 版 社 (1998 年 ) 。 感 谢 授权 使 用 该 图 像 。 


(Machine Learning ) 


， 麦 丰 


六 


如 


是 运用 太阳 镜 网 络 


既然 我 们 现在 使 用 着 一 个 能 输出 0 到 1 之 间 任 意 值 的 网 络 ， 你 也 许 
在 想 我 们 该 上 怎么 才能 得 到 最 终 答案 一 一 图 片 中 的 人 有 没有 戴 太阳 镜 ? 
正确 的 技巧 极其 简单 : 超过 0.5 的 输出 被 视 为 "有 太阳 镜 ”， 低 于 0.5 的 输 
出 结果 被 视 为 “没有 太阳 镜 ”。 


要 测试 我 们 的 太阳 镜 网 络 ， 我 进行 了 一 次 实验 。 面 部 数据 库 包 含 
约 600 张 图 片 ， 我 将 400 张 图 片 用 于 网 络 学 习 ， 然 后 用 剩余 的 200 张 图 片 
测试 了 网 络 的 效果 。 在 这 个 实验 中 ， 太 阳 镜 网 络 的 最 终 精 确 度 在 85% 
左右 。 换 言 之 ， 在 太阳 镜 网 络 从 未 见 过 的 图 片 中 ， 当 询问 约 85% 的 图 
片 “ 里 面 的 人 戴 太 阳 镜 了 吗 ” 这 个 问题 时 ， 太 阳 镜 网 络 都 能 给 出 正确 答 
案 。 上 图 显示 了 一 些 分 类 正确 及 分 类 不 正确 的 图 片 。 检 验 一 个 图 形 识 
别 算法 在 哪些 情况 下 会 失效 总 是 很 吸引 人 ， 这 个 神经 网 络 也 不 例外 。 
上 图 右 侧 没有 被 正确 分 类 的 图 片 中 有 一 两 张 非常 难 识别 ， 其 至 连 人 都 
可 能 分 辨 不 出 。 不 过 ， 至 少 有 一 张 图 片 〈 右 侧 图 中 的 左上 方 图 ) 对 人 
来 说 非常 好 辨认 一 一 这 个 男人 直 视 镜头 ， 很 明显 也 戴 了 太阳 镜 。 这 类 
时 不 时 出 现 的 神秘 失败 案例 在 图 形 识别 任务 中 很 常见 。 


当然 ， 顶 尖 神 经 网 络 在 这 个 问题 上 的 精确 度 能 远 高 于 8596。 这 里 
的 重点 是 使 用 一 个 简单 网 络 ， 理 解 涉 及 的 主要 思想 。 


图 形 识 别 : 过去、 现在 和 未 来 


我 之 前 提 到 过 ， 图 形 识别 是 更 大 的 领域 人 工 智能 AD 的 一 个 方 
面 。 图 形 识别 处 理 高 度 变化 的 输入 数据 ， 如 音频 、 照 片 和 视频 ，AI 处 
理 的 任务 更 多 元 ， 包 括 计算 机 国际 象棋 、 在 线 聊 天 机 器 人 和 人 形 机 器 
人 


人 工 逢 能 是 突然 从 无 到 有 兴盛 起 来 的 : 在 1956 年 于 达 特 茅 斯 大 学 
举行 的 一 次 会 议 上 ， 一 个 由 10 名 科学 家 组 成 的 小 组 从 根本 上 创立 了 这 
一 领域 ， 让 “人 工 状 能 ”这 个 短语 第 一 次 流行 开 来 。 在 这 次 大 会 创建 拓 
案 一 一 大 会 组 织 者 将 其 发 给 了 洛克 非 勒 基金 会 一 一 的 聚 迈 文字 中 ， 他 
们 的 讨论 “将 在 一 个 推测 的 基础 上 进行 ， 这 个 推测 是 学 习 的 每 个 方面 或 
智能 的 任何 其 他 特性 都 能 从 根本 上 加 以 精确 描述 ， 进 而 创造 一 台 能 模 
拟 它 的 机 器 。” 


达 特 第 斯 大 会 给 出 了 很 多 承 诡 ， 但 兑现 其 少 。 而 每 当 人 研究 人 员 确 
信 迈 向 真正 “智能 ”机 带 的 关键 突破 整 在 眼前 时 ， 他 们 的 宏大 布 望 尽 是 
会 被 原型 机 产生 的 机 械 行为 所 打 碎 。 有 即便 神 经 网 络 的 发 展 对 此 帮助 也 
很 小 : 在 数 波 有 前 景 的 活动 之 后 ， 科 学 家 们 也 用 尽 了 对 付 这 堵 机 械 行 
为 之 墙 的 方法 。 


不 过 ， 人 工 智 能 肯定 在 慢 慢 地 破解 那些 思想 进程 集合 ， 这 些 思想 
进程 可 能 被 定义 为 只 有 人 类 独 有 。 数 年 来 ， 许 多 人 相信 人 类 国际 象棋 
冠军 的 直觉 和 洞 见 能 打败 任何 计算 机 程序 。 计 算 机 程序 必须 依赖 于 预 
设 好 的 规则 集 ， 而 非 直觉 。 这 种 看 法 对 人 工 智能 而 言 本 喘 已 摇 摇 欲 
葵 ， 并 在 1997 年 被 彻底 去 除 ，IBM 的 深 监 计算 机 在 这 一 年 打败 了 世界 
冠军 盖 瑞 ' 卡 斯 由 罗 夫 (Garry Kasparov) 。 


同时 ， 人 工 智能 的 成 功 故事 也 慢 慢 活 透 到 普通 人 的 生活 中 去 。 通 
过 语 首 识 别 来 服务 消费 者 的 目 动 电话 系统 已 经 很 常见 。 视 频 游 戏 中 计 
算 机 控制 的 对 手 开 始 表现 出 类 似 于 人 的 战略 ， 甚 至 还 有 个 性 特点 和 弱 
点 。 亚 马 进 和 Netflix 等 在 线 服务 开始 基于 目 动 推 导 的 个 人 喜好 推荐 商 
品 ， 而 结 采 经 常 令 人 极其 满意 。 


的 确 ， 我 们 对 这 些 任务 的 认 知 已 经 从 根本 上 被 人 工 智能 的 发 展 改 
变 了 。 想 想 这 个 问题 ， 在 1990 年 肯定 需要 人 类 的 智能 输入 来 规划 一 次 
多 地 停留 的 飞机 旅行 路 线 ， 而 且 人 类 还 会 因为 目 己 的 专业 技能 获得 报 
酬 。1990 年 ， 好 的 人 类 旅行 中 介 在 寻找 方便 、 低 成 本 的 路 线 上 会 产生 


巨大 不 同 。 不 过 ， 到 2010 年 ， 计 算 机 在 执行 这 项 任务 上 就 比 人 类 好 上 
很 多 了 。 计 算 机 究竟 如 何 达 到 这 一 点 本 身 束 是 个 有 趣 的 故事 ， 因 为 它 
们 在 规划 路 线 时 的 确 用 到 了 数 个 迷人 算法 。 但 更 重要 的 是 这 些 系统 对 
我 们 在 这 项 任务 的 认 知 上 的 影响 。 我 会 说 ， 到 2010 年 ， 大 多 数 人 都 会 
认为 规划 路 线 的 任务 是 纯粹 机 械 化 的 行为 一 一 和 20 年 前 的 认 知 形成 鲜 
明 对 比 。 


任务 的 逐渐 转变 一 一 从 明显 钙 直 觉 性 的 任务 到 显然 是 机 械 化 的 任 
还 在 继续 。 普 裔 意义 上 以 及 图 形 识别 中 特殊 意义 上 的 人 工 知 能 
正 慢 慢 扩展 它们 的 边界 ， 提 升 它们 的 效能 。 本 章 描述 的 算法 一 一 最 近 
邻 分 类 器 、 决 策 树 和 神经 网 络 一 一 能 修 运 用 于 无 数 实际 问题 中 。 这 人 包 
括 纠正 手机 虚拟 键盘 上 胖 手 指 (fat-fingered) 文本 输入 ， 从 一 份 复杂 
的 检验 结 采 中 帮助 诊断 病人 人 疾病， 在 目 动 收费 之 识别 汽车 牌照 ， 以 及 
决定 疝 某 个 计算 机 用 户 展 示 什 么 广告 一 一 这 里 只 列举 几 个 。 因 此 ， 这 
些 算法 是 图 形 识别 系统 的 一 些 基 础 构件 。 不 管 你 是 否认 为 它们 是 真正 
的 “智能 ”， 你 都 将 在 未 来 数 年 中 看 到 更 多 这 些 算 法 。 


务 


第 七 草 ”数据 压缩 一 一 有 区 无 害 


爱 玛 很 快活 。 如 果 不 是 从 卧室 里 传 来 埃 尔 顿 
太太 的 声音 ， 从 而 妨碍 了 她 ， 使 她 急匆匆 地 
真诚 地 紧 紧 握 住 她 的 手 以 表达 最 诚 楚 的 祝愿 
0 孚 的 感情 ， 她 真 想 立 刻 就 表示 有 话 要 
讲 。 


简 . 奥 斯 汀 ，《 爱 玛 》( 洁 ) 


我 们 对 压缩 实物 的 概念 都 很 熟悉 ， 当 你 试图 将 许多 衣服 放 入 一 个 
小 提 箱 中 时 ， 你 可 以 压 一 压 衣服 ， 让 它们 小 到 能 被 小 提 箱 容纳 ， 即 便 
衣服 的 正常 体积 会 超出 小 提 箱 。 你 压缩 了 衣服 。 之 后 ， 再 从 小 提 箱 中 
拿 出 衣服 时 ， 你 就 能 解压 它们 ， 并 以 它们 的 原始 大 小 和 形状 再 度 穿着 

(希望 能 如 此 ) 。 


令 人 惊讶 的 是 ， 我 们 也 有 可 能 对 信息 做 同样 的 事 ， 计算 机 文件 和 
其 他 种 类 的 数据 ， 通 常 能 被 压缩 成 更 小 的 体积 ， 以 方便 存储 或 传输 。 
然后 ， 它 们 会 被 解压 并 以 原始 形式 被 使 用 。 


绝 大 多 数 人 的 计算 机 上 有 足够 的 磁盘 空间 ， 无 须 为 压缩 目 己 的 文 
件 烦 心 。 因 此 ， 和 信 们 倾 同 于 认为 ， 压 缩 对 绝 大 多 数 人 没有 影响 。 但 这 
种 印象 是 错误 的 : 事实 上 ， 计 算 机 系统 背后 经 常用 到 压缩 。 比 如 ， 许 
多 通过 互联 网 发 送 的 消息 都 经 过 了 压缩 ， 用 户 甚 至 不 知道 这 一 点 ; 几 
乎 所 有 软件 都 站 以 压缩 格式 被 下 载 一 一 这 意味 着 你 下 载 和 转移 文件 的 
速度 ， 要 比 不 压缩 时 快 数 倍 。 甚 至 当 你 对 着 电话 讲话 时 ， 你 的 声音 也 


经 过 了 压缩 : 如 有 果 电 话 公司 能 在 传输 语音 数据 前 进行 压缩 ， 它 们 整 能 
对 目 己 的 资源 实现 超 高 利用 率 。 


压缩 也 以 更 明显 的 方式 得 到 了 运用 。 流 行 的 ZIP 文 件 格 式 运 用 的 精 
巧 压缩 算法 ， 将 在 本 章 得 到 介绍 。 你 很 有 可 能 也 对 涉及 压缩 数 子 视频 
的 得 失 很 熟悉 ， 高 质量 视频 的 文件 体积 ， 要 比 相同 视频 的 低 质量 版 本 
大 很 多 。 


无 损 压 缩 : 终极 免费 午餐 


计算 机 使 用 两 种 截然 不 同 的 压缩 : 无损 压缩 和 有 损 压缩 ， 这 点 很 
重要 。 无 损 压 缩 宇 真正 的 免费 午餐 ， 对 你 有 花 无 害 。 一 种 无 损 压 缩 算 
法 能 将 一 个 数据 文件 压缩 为 其 原始 体积 的 一 小 部 分 ， 然 后 将 其 解压 为 
和 之 前 一 样 的 东西 。 相 反 ， 有 损 压缩 会 导致 解压 后 的 原始 文件 发 生 一 
些小 改变 。 我 们 称 后 再 讨论 有 损 压 缩 ， 现 在 让 我 们 专注 于 无 损 压 缩 
吧 。 举 个 无 损 压 缩 的 例子 ,假设 原始 文件 包含 本 书 文本 。 那 么 你 在 压 
缩 前 和 压缩 后 得 到 的 文件 版 本 包含 完全 相同 的 文本 一 一 不 会 有 一 个 
字 、 朱 格 或 标点 符号 不 同 。 在 我 们 为 免费 午餐 感到 欣喜 寿 狂 之 前 ， 我 
要 加 一 个 重要 警告 : 无 损 压 缩 算 法 并 不 能 为 所 有 文件 都 节省 大 量 空 
间 。 但 一 个 好 的 压缩 算法 能 为 特定 大 类 的 文件 市 省 大 量 空间 。 


那 我 们 怎么 才能 至 受 免 费 午 餐 呢 ?你 怎么 才能 在 不 破坏 的 情况 
下 ， 让 一 块 数 据 或 信息 比 起 实际 “真实 ”体积 更 小 ， 并 在 之 后 完美 地 重 
构 一 切 东 西 呢 ? 事实 上 ， 人 类 一 直 都 在 这 么 做 ， 只 不 过 从 未 想到 过 要 
了 。 想 一 下 你 的 每 周 日 程 。 为 简单 起 见 ， 让 我 们 假设 你 每 天 工作 8 小 
时 ， 每 周 工作 5 天 ， 你 用 一 小 时 的 区 间 来 划分 日 程 。 因 此 ，5 个 工作 日 
的 每 天 都 有 8 个 可 能 的 区 间 ， 每 周一 共有 40 个 区 间 。 然 后 ， 将 你 一 周 的 
日 程 传输 给 其 他 人 ， 你 必须 传输 40 份 信息 。 但 如 果 有 人 打 电 话 让 你 安 
排 下 周 的 一 个 会 议 ， 你 会 通过 列 出 40 份 分 开 的 信息 来 描述 自己 什么 时 


候 有 空 吗 ? 当然 不 会 ! 最 有 可 能 的 情况 是 ， 你 会 说 些 “ 周 一 和 周二 全 
满 ， 周 四 和 周 五 下 午 1 点 到 3 点 有 预约 ， 其 余 时 间 有 空 ”之 类 的 话 。 这 就 
是 一 个 无 损 数 据 压缩 的 例子 ! 和 你 谈话 的 人 能 完全 重 构 出 你 下 周 所 有 
40 个 时 段 的 空 几 情况 ， 但 你 却 无 须 详细 列 出 它们 。 


你 也 许 会 想 这 种 “压缩 "是 取 巧 ， 因 为 它 取决 于 这 一 事实 : 你 的 日 
程 安排 中 的 绝 大 多 数 区 块 都 相同 。 符 别 是 ， 周 一 和 周二 全 天 都 有 预 
约 ， 因 此 你 能 非常 快速 地 朱 述 它们 ， 这 周 剩 下 的 时 间 里 ， 除 了 两 个 时 
间 段 以 外 都 有 衬 ， 这 也 很 容易 描述 。 这 的 确 是 个 非常 简单 的 例子 。 不 
管 怎 样 ， 计 算 机 中 的 数据 压缩 也 是 按照 这 一 方法 运行 的 : 基本 思想 是 
发 现 数据 中 彼此 相同 的 部 分 ， 并 运用 某 种 把 戏 更 高 效 地 描述 这 些 部 


这 在 数据 包含 重复 片段 时 尤其 价 单 。 比 如 ， 你 很 有 可 能 想 出 一 个 
压缩 下 列 数 据 的 好 方法 : 


AAAAAAAAAAAAAAAAAAAAABCBCBCBCBCBCBCBCBCBCAA 
AAAADEFDEFDEF 


如 果 乍 一 看 还 不 明显 ， 思 考 一 下 你 会 如 何 通过 电话 向 某 人 口述 这 
份 数据 。 和 说 “A、A、A、A、. 、D、E、F” 不 同 的 是 ， 我 肯定 你 
更 有 可 能 会 说 “21 个 A， 然 后 是 10 个 BC， 接 着 是 6 个 A， 最 后 是 3 个 
DEF”。 再 比如 ， 要 很 快 地 在 一 张 纸 上 记 下 这 份 数据 ， 你 可 能 会 
写 “21A、10BC、6A、3DEF”。 在 这 个 例子 里 ， 你 将 这 个 包含 56 个 字母 
的 原始 数据 压缩 成 了 只 有 16 个 字母 的 字符 串 。 这 不 到 原 体 积 的 三 分 之 
> 不 错 ! 计算 机 科学 家 将 这 种 特别 的 把 戏称 为 行程 长 度 编 码 

(run-length encoding) ， 因 为 它 将 重复 的 “行程 >? 和 行程 的 “长 度 ” 编 码 
在 了 一 起 。 


不 笠 的 是 ， 行 程 长 度 编码 只 在 压缩 非常 特殊 的 数据 种 类 上 有 用 。 
它 在 实际 中 也 有 和 运用， 但 大 部 分 时 候 只 和 其 他 压缩 算法 结合 起 来 使 


用 。 比 如 ,传真 机 就 将 行程 长 度 编码 和 男 一 种 被 称 为 霍 夫 曼 编码 
(Huffman coding) 的 技术 结合 起 来 使 用 ， 我 们 稍 后 将 谈 到 霍 夫 曼 编 
码 。 行 程 长 度 编码 的 主要 问题 是 ， 数 据 中 的 重复 片段 必须 相 邻 一 一 换 
人 句 话 说 ， 重 复 部 分 间 不 能 有 其 他 数据 。 使 用 行程 长 度 编 码 压缩 
ABABAB 很 容易 (只 是 3AB) ,但 用 相同 的 把 戏 压缩 ABXABYAB 就 行 
不 通 了 。 


你 也 许 明白 为 什么 传真 机 能 利用 行程 长 度 编码 。 从 定义 上 来 说 ， 
传真 是 黑 晶 文件， 文件 会 被 转换 成 许多 个 点 ， 每 个 总 都 是 非 野 即日 。 
当 你 按 顺 序 阅读 这 些 点 (从 左 到 右 ， 从 上 到 下 ) ， 你 会 遇 到 大 段 日 点 

(背景 ) 以 及 小 段 黑 点 (前景 文本 或 笔迹 ) 。 这 让 使 用 行程 长 度 编码 
变 得 非常 有 效 。 但 正如 之 前 所 提 到 的 ， 只 有 特定 类 型 的 数据 具有 这 一 
将 扎 。 


于 是 ， 计 算 机 科学 家 们 发 明了 一 系列 更 成 熟 的 把 戏 ， 这 些 把 戏 使 
用 的 基本 思想 都 相同 〈 寻 找 重复 并 高 效 地 描述 它们 ) ， 但 即便 重复 部 
分 不 相 邻 也 效果 恨 好 。 在 这 里 ， 我 们 只 会 研究 其 中 的 两 种 把 戏 : 同 前 
把 戏 (same-as-earlier trick) 和 更 短 符 号 把 戏 (shorter-symbol trick) 。 
你 只 需要 这 两 个 把 戏 就 能 生成 ZIP 文 件 ， 而 ZIP 文 件 格式 是 个 人 电脑 上 
压缩 文件 最 流行 的 格式 。 因 此 ， 一 旦 你 理解 了 这 两 个 把 戏 背 后 的 基本 
思想 ， 你 也 惑 理解 了 计算 机 在 大 部 分 时 间 里 是 如 何 运 用 压缩 的 。 


Wi 


想象 这 束 古 你 要 处 理 的 可 怕 任 务 ， 通 过 电话 问 某 人 口述 如 下 数 
据 : 


VJGDNQMYLH-KW-VJGDNQMYLH-ADXSGF-OVJGDNQMYLH- 
ADXSGF-VJGDNQMYLH-EW-ADXSGE 


这 里 有 63 个 字母 需要 沟通 (顺便 说 一 句 ， 我 们 忽略 了 破 折 号 ， 加 
入 它们 只 是 为 了 让 数据 更 容易 阅读 ) 。 和 每 次 一 个 字母 地 口述 全 部 63 
个 字母 相 比 ， 我 们 有 更 好 的 办 法 吗 ? 第 一 步 也 许 是 去 识别 数据 中 大 量 
的 重复 部 分 。 事 实 上 ， 大 多 数 被 破 折 号 分 开 的 “ 块 ? 都 至 少 重 复 了 一 
次 。 因 此 ， 在 口述 这 份 数据 时 ， 你 可 以 通过 “这 部 分 和 我 之 前 告诉 你 的 
某 个 部 分 一 样 ”节省 大 量力 气 。 更 精确 点 讲 ， 你 要 讲 十 多 久 前 说 的 ， 还 
要 讲 重 复 的 部 分 有 多 长 一 一 也 许 是 “ 往 回 数 27 个 字母 ， 然 后 复制 从 那 一 
总 天 如 仁和 HB 人 2 


让 我 们 来 看 看 这 一 策略 在 现实 中 效果 如 何 。 最 开始 的 12 个 字母 没 
有 重复 部 分 ， 你 没有 其 他 选择 ， 只 能 按 字 母 逐 个 口述 : “V、J、G、 
D、N、Q、~M、Y、L、H、K、W”。 但 接 下 来 的 10 个 字母 和 之 前 的 一 
些 字 母 相 同 ， 因 此 你 可 以 说 “back 12，copy 10”( 数 回 12 个 字母 ， 抄 到 
第 10 个 字母 ) 。 再 下 面 7 个 字母 是 新 出 现 的 ， 按 字母 逐个 口述 : “A、 
D、X、S、G、F、0O”。 但 之 后 的 16 个 字母 是 个 大 的 重复 部 分 ， 因 此 你 
可 以 说 “back 17，copy 16”( 数 回 17 个 字母 ， 抄 到 第 16 个 字母 ) 。 接 下 
来 的 10 个 字母 也 是 之 前 的 重复 部 分 ， 因 此 “back 16， copy 10” ( 数 回 
16 个 字母 ， 抄 到 第 10 个 字母 ) 就 可 以 了 。 再 接 下 来 的 两 个 字母 没有 重 
复 ， 需 要 逐个 口述 为 下 、W”。 最 后 的 6 个 字母 是 之 前 的 重复 ， 可 以 通 
过 “back 18，copy 6”( 数 回 18 个 字母 ， 抄 到 第 6 个 字母 ) 沟通 。 


让 我 们 尝试 总 结 一 下 这 个 压缩 算法 。 我 们 用 缩写 b 代 蔡 “back”，c 
代替 “copy”。 因 此 一 个 如 “back 18，copy 6”( 数 回 18 个 字母 ， 抄 到 第 6 
个 字母 ) 的 返回 抄写 指令 简写 为 b18c6。 因 此 上 面 的 口述 指令 可 以 被 总 


十 cb 
结 成 : 


VJGDNQMYLH-KW-b12c10-ADXSGF-O-b1l7c16-b16c10-EW-b18c6 


这 个 字符 串 只 包含 44 个 字母 。 原 始 字符 串 有 63 个 字母 ， 我 们 节省 
了 19 个 字母 ， 接 近 原 始 字符 串 长 度 的 1/3 。 


同 前 把 戏 中 还 有 一 个 有 趣 的 窍门 。 你 会 如 何 使 用 相同 的 把 戏 压 缩 
FG-FG-FG-FG-FG-FG-FG-FG 这 条 消息 ? (和 之 前 一 样 ， 破 折 号 不 是 消 
息 的 一 部 分 ， 只 是 为 增强 可 读 性 而 添加 。) 消息 中 的 FG 有 8 处 重复 ， 
因此 我 们 可 以 单个 口述 前 4 个 ， 然 后 使 用 如 下 的 返回 抄写 指令 : FG- 
FG-FG-FG-b8c8。 这 会 节省 不 少 字 母 ， 但 我 们 可 以 做 得 更 好 。 这 需要 
一 个 第 一 眼看 起 来 可 能 显得 荡 启 的 返回 抄写 指令 : “back 2， copy 14” 

( 数 回 2 个 字母 ， 抄 到 第 14 个 字母 ) ， 或 简写 为 b2c14。 压 缩 的 消息 就 
成 了 FG-b2c14。 在 只 有 2 个 字母 可 供 抄写 的 情况 下 ， 怎 么 理解 抄 到 第 14 
个 字母 呢 ? 事实 上 ， 只 要 你 从 重新 生成 的 消息 中 而 非 压缩 的 消息 中 抄 
写 ， 就 不 会 有 任何 问题 。 让 我 们 一 步 步 地 来 做 。 在 口述 了 最 开始 的 2 个 
字母 后 ， 我 们 有 了 FG。 然 后 我 们 收 到 b2c14 指 令 ， 于 是 我 们 数 回 2 个 字 
母 并 开始 抄写 。 因 为 只 有 2 个 字母 (FG) ， 让 我 们 抄写 这 2 个 字母 : 当 
把 抄写 的 字母 加 到 我 们 已 有 的 字母 后 ， 结 果 是 FG-FG。 但 现在 多 了 ?个 
字母 ! 照样 抄写 这 些 字母 ， 在 将 它们 添加 到 已 有 的 重新 生成 的 消息 上 
之 后 ， 你 得 到 了 FG-FG-FG。 和 前 一 次 一 样 ， 又 多 出 2 个 字母 ， 于 是 你 
又 能 多 抄写 2 个 字母 。 依 此 类 推 ， 直 到 你 抄写 了 所 要 求 的 字母 数 (在 这 
个 例子 中 就 是 14 个 ) 。 要 检验 自己 是 否 理解 了 这 一 点 ， 看 看 你 能 和 否 得 
到 这 条 压缩 消息 的 解压 版 ，Ablc250( 沁 。 


目 更 短 符号 把 


要 理解 名 为 “更 短 符 号 把 戏 ” 的 压缩 把 戏 ， 我 们 要 更 深入 探究 计算 
机 存储 消息 的 方式 。 你 之 前 可 能 听 说 过 ， 计 算 机 并 不 真 的 存储 a、b 、< 
这 样 的 字母 。 所 有 东西 都 以 数字 存储 ， 然 后 根据 一 些 固 定 表格 翻译 为 
字母 。 (这 种 在 字母 和 数字 之 间 转 换 的 技术 在 校 验 和 的 讨论 中 有 提 
到 。) 比如 ， 我 们 可 以 同意 “a” 由 27 代 表 ，“b” 由 28 代 表 ,，“c” 由 29 代 
表 。 那 么 字符 串 “abc” 就 可 以 以 “272829” 的 形式 存储 在 计算 机 中 ， 而 在 
屏幕 上 显示 或 打印 在 纸 上 之 前 ， 这 些 数字 又 能 轻易 翻译 回 “abc”。 


下 面 的 表格 给 出 了 一 个 完整 列表 ， 列 出 了 计算 机 也 许 想 存储 的 100 
个 符号 以 及 每 个 符号 对 应 的 两 位 数 代码 。 顺 便 说 一 下 ， 这 个 特别 的 两 
位 数 代码 集 并 没有 在 任何 现实 计算 机 系统 使 用 ， 但 与 现实 生活 中 使 用 
的 代码 相当 相似 。 两 者 的 主要 区 别 是 ， 计 算 机 并 不 使 用 人 类 使 用 的 十 
进 制 数 系统 。 相 反 ， 也 许 你 知道 ， 计 算 机 使 用 一 个 不 同 的 数位 系统 ， 
这 个 系统 被 称 为 二 进 制 系统 。 不 过 ， 这 些 细节 对 我 们 来 说 并 不 重要 。 
更 短 符号 压缩 把 戏 同 时 对 十 进 制 和 二 进 制 数 系统 奏效 ， 因 此 我 们 假装 
计算 机 使 用 十 进 制 ， 以 使 接 下 来 的 解释 更 容易 。 


仔细 看 看 这 张 符号 表 。 注 意 表 的 第 一 项 给 出 了 字 与 字 之 间 空 格 的 
数字 代码 “00”。 接 下 来 是 从 A (“01”) 到 Z (“26”) 的 大 写字 母 ， 以 及 
从 a (“27”) 到 z (“52”) 的 小 写字 母 。 再 接 下 来 是 标点 符号 ， 最 后 一 
栏 中 收录 了 一 些 书 写 非 英语 单词 用 到 的 字符 ， 从 & (“80”) 到 证 

(“g9”) 。 


那么 计算 机 该 如 何 使 用 这 些 两 位 数 代 码 存储 “Meet your fiancé 
there” (去 那 见 你 的 未 婚 夫 ) 这 句 话 呢 ? 很 简单 : 只 要 将 每 个 字符 翻译 
成 对 应 的 数字 代码 并 串联 在 一 起 : 


Meetyourfiancé there. 


13 31 31 46 00 51 41 47 44 00 32 35 27 40 29 82 00 46 34 31 44 31 66 


在 计算 机 中 ， 数 字 对 之 间 是 没有 间隔 的 ， 认 识 到 这 一 点 很 重要 。 
因此 ， 这 条 请 轧 实 际 上 被 存储 为 一 个 46 位 数 的 持续 字符 
串 : “1331314600514147440032352740298200463431443166”。 当然 ， 
人 类 解读 这 个 字符 串 有 点 难 ， 但 对 计算 机 来 说 却 轻而易举 。 在 将 数字 
翻译 成 字符 显示 在 屏幕 上 之 前 ， 计 算 机 能 轻易 将 数字 分 成 对 。 关 键 是 
在 如 何 分 开 数字 代码 上 没有 歧义 ， 因 为 每 个 代码 都 只 是 用 两 个 数字 。 
事实 上 ， 这 也 是 A 用 “01” 而 不 是 “1” 代 表 的 原因 。 同 理 ，B 是 “02” 而 不 
是 “2”， 一 直到 字母 1 (“09” 而 不 是 “9”) 。 如 果 我 们 选择 让 A=“1?”， 


B=“2”， 依 此 类 推 ， 根本 就 不 可 能 清楚 地 翻译 消息 。 比 如 ， 消 
息 “1123” 可 以 拆 成 “1 1 23”( 翻 译 为 AAW) ,或 “112 3” (KBC) 或 “1 
123”(AABC) 。 因 此 ， 请 记 住 这 一 重要 思想 : 数字 码 和 字符 之 间 的 
翻译 必须 清楚 无 异议 ， 即 便 代 码 在 没有 空格 的 情况 下 彼此 相 邻 地 存 
储 。 我 们 马上 就 要 为 这 个 问题 感到 头痛 ! 


回 到 更 短 符号 把 戏 。 和 本 书 中 描述 的 许多 本 该 是 技术 性 的 思想 一 
样 ， 人 类 也 一 直 在 运用 更 短 符 号 把 戏 ， 用 时 其 至 想 都 没 想 过 。 更 短 符 
号 把 戏 的 基本 思想 是 ， 如 果 你 使 用 某 样 东西 足够 多 次 ， 给 它 起 个 简短 
缩写 是 很 值得 的 。 所 有 人 都 知道 “USA” 是 “United States of 
America” (美利坚 合众国 ) 的 缩写 一 一 我 们 所 有 人 每 次 在 输入 或 说 出 
这 个 由 3 个 字母 组 成 的 代码 “USA”， 而 非 其 代表 的 由 24 个 字母 组 成 的 完 
整 短 语 时 都 节省 了 很 多 力气 。 你 知道 “The sky is blue in color”( 天 空 很 
蓝 ) 的 缩写 吗 ? 这 个 短 句 恰好 也 由 24 个 字母 组 成 。 当 然 不 知道 ! 但 为 
什么 呢 ?“United States of America” 和 “The sky is blue in color” 之 间 有 什 
么 区 别 ? 关键 区 别 在 于 ， 其 中 一 个 短语 的 使 用 频率 要 比 另 一 个 大 得 
多 ， 而 通过 缩写 一 个 经 常 使 用 的 短语 而 非 一 个 极 少 使 用 的 短语 ， 我 们 
可 以 节省 大 量力 气 。 
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于 存储 符号 的 数字 码 


让 我 们 尝试 将 这 个 想法 应 用 到 上 一 页 的 代码 系统 中 去 。 我 们 已 经 
知道 ， 通 过 使 用 经 常用 到 的 东西 的 缩写 ， 我 们 市 省 的 力气 能 达到 最 
大 。 字 和 母 “e* 和 “在 吴语 中 使 用 得 最 频繁 ， 让 我 们 党 试用 更 短 的 代码 来 
代 蔡 这 两 个 字母 。 现 在 ，“e” 是 31，“i” 是 46 一 一 每 个 字母 都 需要 两 个 数 
字 代 表 。 将 两 个 数字 减 成 一 个 数字 呢 ? 假 设 现在 “e” 由 8 代表 ，“t” 由 9 代 
表 。 这 个 主意 太 好 了 1! 记得 我 们 之 前 是 如 何 编码 短 句 “Meet your fiancé 
there”( 去 那 见 你 的 未 婚 夫 ) 的 吧 ， 当 时 一 共用 了 46 个 数字 。 现 在 我 们 
可 以 只 使 用 40 个 数字 : 


Meetyourfiancé there. 
138 8 9 005141474400323527402982009 348 448 66 


不 入 的 是 ， 这 一 计划 有 个 致命 缺陷 。 计 算 机 并 不 存储 单个 字母 间 
的 空格 。 因 此 编码 不 会 像 *13 8890051...44866”， 而 是 
和 “138890051. . . 44866” 一 样 。 你 发 现 问题 了 没有 ? 集中 看 前 5 个 数 
字 ， 也 就 是 13889。 注 意 代 码 13 代 表 “M”，8 代 表 “e”，9 代 表 “t*， 因 此 
数字 13889 的 解码 方式 之 一 是 将 其 拆 成 13-8-8-9， 得 到 单词 “Meet”。 但 
88 代 表 重 读 符 号 “后 ， 因 此 数字 13889 也 可 能 拆 分 为 13-88-9 ， 
即 “Mwt”。 事 实 上 ， 人 情况 还 可 以 更 糟 ， 因 为 89 代 表 另 一 个 略为 不 同 的 重 
读 符 号 “0 >”， 因 此 13889 的 另 一 种 可 能 拆 分 是 13-8-89， 人 代表“Metn”。 根 
本 没 办 法 分 辨 这 三 种 可 能 的 翻译 中 哪 种 正确 。 


这 是 一 场 灾 难 ! 我 们 使 用 更 短 的 代码 代表 字母 <“e" 和 “的 精巧 计 
划 ， 导 致 了 一 个 根本 不 雪 效 的 编码 系统 。 幸 运 的 征 ， 再 多 使 用 一 种 把 
戏 束 能 弥补 。 真 正 的 问题 是 当 我 们 看 到 数字 8 或 9 时 ， 我 们 无 从 分 辨 它 
是 一 个 一 位 数 代 码 (不 管 是 “e” 还 是 “t*”) 的 一 部 分 ， 还 是 一 个 以 8 或 9 开 
头 的 两 位 数 代 码 (如 重读 符号 “和 ?和 “e” 等 ) 的 一 部 分 。 要 解决 这 个 问 
题 ， 我 们 必须 有 所 牺牲 : 一 些 代码 实际 上 会 变 得 更 长 。 以 8 或 9 开头 的 
清楚 的 两 位 数 代码 会 变 成 三 位 数 代 码 ， 但 并 不 会 以 8 或 9 开 涉 。 下 文 的 
图 表 展 示 了 一 种 达成 这 一 目的 的 特殊 方法 。 一 些 标点 符号 也 受到 了 影 


响 ， 但 最 终 情 况 良 好 : 任何 以 7 开头 的 数字 都 是 三 位 数 代 码 ， 任 何以 8 
或 9 开始 的 数字 都 是 一 位 数 代码 ， 任 何以 0、1、2、3、4、5 或 6 开头 的 
数字 都 是 和 前 面 一 样 的 两 位 数 代 码 。 因 此 ， 现 在 拆 分 数字 13889 的 方法 
只 有 一 种 (13-8-8-9， 代 表 “Meet”) 一 一 这 也 是 用 于 其 他 任何 正确 编码 
的 数字 字符 串 。 所 有 模糊 性 都 被 消除 了 ， 原 始 消息 的 新 编码 如 下 : 


Meetyourfiancé there. 
138 8 9 0051414744003235274029782009 348 448 66 
原始 编码 使 用 了 46 个 数字 ， 这 次 只 使 用 了 41 个 数字 。 这 看 起 来 也 
许 只 是 节省 了 一 点 点 ， 但 如 采 是 一 条 更 长 的 信息 ， 市 省 的 长 度 就 会 非 
常 明 显 。 比 如 ， 本 书 文本 (只 有 文字 ， 没 有 图 像 ， 要求 将 近 500 KB 


一 一 50 万 字符 一 一 的 存储 空间 。 但 在 使 用 了 刚刚 描述 的 两 种 把 戏 压缩 
后 ， 本 书 文本 的 体积 减少 到 只 有 160 KB， 不 到 原 体积 的 三 分 之 一 。 
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使 用 更 短 符号 把 戏 的 数字 码 。 与 上 一 个 表格 的 不 同 以 黑体 显示 ， 两 个 常用 字母 的 代码 被 缩短 
了 ， 代 价 是 用 更 大 的 数字 增长 了 不 常用 符号 的 代码 。 结 果 是 大 部 分 消息 的 总 长 度 缩短 。 


总 结 : 免费 午餐 来 目 何 方 ? 


现在 ， 我 们 理解 了 创建 计算 机 标准 压缩 ZIP 文 件 背后 的 所 有 重要 概 
念 。 下 面 是 具体 实施 步骤: 


步骤 一 : 


计算 机 使 用 同 前 把 戏 传输 未 经 压缩 的 原文 件 ， 让 文件 中 绝 大 多 数 
重复 数据 由 短 得 多 的 指令 取代 ， 这 些 指令 会 返回 并 找 贝 其 他 地 方 的 数 
据 。 


步骤 二 : 


计算 机 会 检查 传输 后 的 文件 ， 选 出 经 和 营 出 现 的 符号 。 比 如 ， 如 宋 
原文 件 以 英语 为 书写 语言 ， 那 么 计算 机 束 很 有 可 能 会 发 现 “e" 和 “十 最 
钊 出 现 的 两 个 符号 。 随 后 ， 计 算 机 会 创建 一 张 如 下 页 的 表格 ， 用 短 数 
字 码 代表 经 彰 用 到 的 符号 ， 用 更 长 的 数字 码 代 表 极 少 用 到 的 符号 。 


步骤 三 : 


计算 机 会 通过 直接 将 文件 翻译 为 步骤 二 中 的 数字 码 来 再 次 传输 文 
人 


步骤 二 中 计算 出 的 数字 码 表 也 会 存储 在 ZIP 文 件 中 ， 否 则 在 后 面 不 
可 能 解码 (并 解压 ) ZIP 文 件 。 注 意 ， 不 同 的 未 压缩 文件 会 得 到 不 同 的 
数字 码 表 。 事 实 上 ， 在 真正 的 ZIP 文 件 中 ， 原 文件 被 分 成 了 小 块 ， 每 个 
块 都 有 不 同 的 数字 人 码 表 。 计 算 机 能 目 动 高 效 地 完成 所 有 这 些 步 又 ， 实 
现 多 种 文件 的 优质 压缩 。 


有 损 压 缩 : 不 是 免费 午餐 ， 但 也 是 一 笔 好 闫 卖 


到 目前 为 止 ， 我们 一 直 都 在 讨论 无 损 压缩 ， 因 为 你 能 将 压缩 过 的 
文件 重新 组 建成 一 开始 使 用 的 原文 件 ， 连 一 个 字母 或 一 个 标点 符号 都 


没有 改变 。 相 反 ， 有 时 候 使 用 有 损 压 缩 要 有 用 得 多 。 有 损 压 缩 能 让 你 
将 一 个 压缩 过 的 文件 重新 组 建成 一 个 和 原文 件 非常 类 似 ， 但 并 不 完全 
和 原文 件 相同 的 文件 。 比 如 ， 有 损 压 缩 经 常用 于 包含 图 片 或 首 频 数据 
的 文件 ， 只 要 照片 在 人 眼中 看 起 来 一 样 ， 在 计算 机 上 存储 照片 的 文件 
征 人 否 和 在 相机 中 存储 照片 的 文件 相同 其 实 并 不 重要 。 同 样 的 道理 也 适 
用 于 音频 数据 : 只 要 歌曲 在 人 耳 中 听 起 来 一 样 ， 在 数字 音乐 播放 船上 
存储 歌曲 的 文件 是 否 和 在 CD 中 存储 歌曲 的 文件 相同 也 并 不 重要 。 


事实 上 ， 有 时 候 有 损 压缩 会 以 更 为 极端 的 方式 使 用 。 我 们 都 看 过 
互联 网 上 的 低 质 量 视 频 和 图 片 ， 里 面 的 画 质 模 糊 ， 音 质 糟 料 。 这 是 过 
度 使 用 有 损 压 缩 的 结 采 ， 目 的 是 让 视频 或 图 像 文件 体积 变 得 非常 小 。 
我 并 不 是 要 说 视频 看 起 来 要 和 原 视频 一 样 ， 但 至 少 也 要 可 以 看 清 。 通 
过 调整 压缩 的 “损失 率 "， 网 站 操作 人 员 可 以 在 看 起 来 和 听 起 来 几 近 完 
美的 高 质量 大 文件 ， 以 及 有 着 明显 缺陷 但 传输 带宽 要 求 很 少 的 低 质量 
文件 之 则 进行 选择 。 你 也 可 能 在 数码 相机 上 做 过 同样 的 事 ， 通 党 你 能 
选择 图 像 和 视频 质量 的 不 同 设置 。 如 有 果 你 选择 高 质量 设置 ， 你 能 在 相 
机 上 存储 的 照片 或 视频 数 ， 就 会 比 选择 低 质量 设置 时 少 很 多 。 这 是 因 
为 高 质量 媒体 文件 要 比 低 质量 媒体 文件 占据 更 多 空间 。 而 这 一 切 都 只 
需 通过 调整 压缩 “损失 率 ” 来 完成 。 接 下 来 ， 我 们 将 探 完 几 种 进行 这 一 
调整 的 把 戏 。 


| 抛弃 把 戏 


有 损 压 缩 的 一 个 简单 且 有 效 的 方法 是 直接 抛弃 一 些 数据 。 让 我 们 
来 研究 一 下 “ 抛 充 ”把 戏 (leave-it-out trick) 如 何在 黑白 照片 上 运用 。 
我 们 首先 要 了 解 一 点 黑白 照 厂 如 何在 计算 机 上 存储 的 知识 。 照 片 由 大 
量 小 点 组 成 ， 这 些小 点 被 称 为 “像素 ”。 每 个 像素 只 有 一 种 颜色 ， 这 种 
颜色 可 以 是 黑 ， 也 可 以 是 日 ， 或 墨 与 日 之 间 的 任意 灰 度 。 当 然 ， 我 们 


通 利 不 会 意识 到 这 些 像素 ， 因 为 它们 太 小 了 ， 但 如 采 你 离 显 示 怖 或 电 
视屏 足够 近 ， 束 能 看 到 单个 像素 。 


在 计算 机 中 存储 的 黑白 照片 里 ， 每 个 可 能 的 像素 颜色 都 由 一 个 数 
字 代 表 。 比 如， 让 我 们 假设 越 大 的 数字 代表 越 白 的 颜色 ，100 是 最 大 的 
数字 。 因 此 100 代 表白 色 ，0 代 表 黑 色 ，50 代 表 中 等 灰 度 ，90 代 表 浅 灰 
等 等 。 像 素 按照 矩形 方 阵 排 列 ， 其 中 每 个 像素 都 代表 图 片 中 一 些 非常 
小 的 部 分 的 颜色 。 方 阵 的 行列 总 数 就 是 图 像 的 “解析 度 ”。 比 如 ， 许 多 
高 清 电视 的 解析 度 是 1 920x1 080， 这 意味 着 图 像 有 1 920 列 和 1 080 行 
像素 。 像 素 总 数 就 是 1 920 乘 以 1 080， 也 就 是 逾 两 百 万 像素 ! 数字 相机 
也 使 用 相同 的 术语 。“megapixel* 只 是 个 用 来 表示 百 万 像素 的 花哨 名 
字 。 因 此 ， 一 台 500 万 像素 的 相机 有 足够 多 行 和 足够 多 列 的 像素 ， 当 你 
将 行 数 和 列 数 相 乘 后 ,得 到 的 数 束 会 超过 500 万 。 当 照片 存储 在 计算 机 
中 时 ， 它 就 是 一 个 数字 列表 ， 每 个 像素 都 由 数字 代表 。 


下 图 中 左上 方 的 带 角 楼 的 房屋 照片 , 比 高 清 电视 的 解析 度 低 很 多 : 
只 有 320x240。 不 过 ， 其 像素 数目 仍然 相当 大 (320x240 = 76 800) ， 
存储 这 张 照片 的 文件 ,在 未 压缩 形式 下 占用 了 超过 230 KB 的 存储 空间 。 
1KB 约 相当 于 1 000 个 文本 字符 一 一 差不多 是 一 段 电子 邮件 的 体积 。 
此 ， 左 上 方 的 图 在 作为 文件 存储 时 ， 需 要 占用 的 空间 约 等 于 200 条 短 电 
子 邮 件 消息 。 


我 们 可 以 用 下 列 非常 简单 的 技术 来 压缩 这 个 文件 : 每 两 行 或 每 两 
列 像素 吕 忽 上 略 或 “抛弃 一行 或 一 列 。 抛 弃 把 戏 驶 是 这 么 简单 ! 在 这 个 
例子 中 ， 结 果 是 得 到 了 一 张 解析 度 更 小 的 照片 ， 这 张 解析 度 为 
160x120 的 新 照片 在 图 中 原 照 片 下 面 显 示 。 痢 文件 的 体积 只 有 原文 件 
的 四 分 之 一 〈 约 57KB) 。 这 是 因为 新 图 片 的 像素 只 有 原 图 片 像 素 的 
四 分 之 一 多 一 一 我 们 同时 去 除了 原 几 片 宽 和 高 各 一 半 的 像素 。 相 当 于 
原 疼 片 的 体积 减 小 了 一 半 一 一 一 次 是 水 平方 向 ， 一 次 是 垂直 方 问 
结果 殉 是 最 终 体 积 只 有 原 体积 的 1/4。 


我 们 还 可 以 再 用 一 次 抛弃 把 戏 。 将 新 的 160x120 像 素 图 片 每 两 行 
或 每 两 列 像素 抛弃 一 行 或 一 列 ， 得 到 男 一 张 80x60 的 新 图 片 ， 结 采 显 
示 在 下 图 的 左下 方 。 这 张 图片 的 体积 义 缩 小 了 3/4， 其 最 终 体积 只 有 14 
KB。 相 当 于 原始 文件 体积 的 6%， 这 一 压缩 比率 令 人 印象 非常 深 刻 。 


样 


是 江 光 


抛弃 把 戏 的 压缩 ， 左 边 显示 的 是 原始 图 


320 x 240 像 素 
[230KB] 


压缩 


站、 NA 
160 120 像 素 解压 自 160 x 120 像 素 
[57KB] [57KB] 


80 x 60 像 素 
[14KB] 


解压 自 80 x 60 像 素 
[14KB] 


大 小 时 


月 : 以 及 两 张 该 图 片 的 缩减 版 ° 每 张 缩减 后 的 图 
都 通过 抛弃 前 一 张 Sa 般 的 行 和 列 计算 得 出 。 右 边 是 将 缩减 后 的 图 片 解 压 到 原始 图 片 
的 解压 效果 图 。 重 构 并 不 完美 ， 重 构图 和 原 图 有 明显 区 


a 


本 


区 别 。 


但 请 记 住 ， 我 们 在 使 用 有 损 压 缩 ， 并 没有 免费 午餐 。 午 餐 很 便 
宜 ， 但 我 们 必须 付 钱 。 当 我 们 将 压缩 过 的 文件 之 一 解压 到 原 图 大 小 
时 ， 看 看 发 生 了 什么 。 因 为 其 中 一 些 像素 行 和 列 补 删 除 ， 计 算 机 必须 
推测 这 些 消 失 像 素 的 颜色 十 什么 。 最 简单 的 可 能 推测 是 给 任 一 消失 像 
素 以 其 相 邻 像素 之 一 的 颜色 。 选 择 任 一 相 邻 像素 都 可 以 ， 但 在 这 个 例 
了 里， 计算 机 选择 了 消失 像素 正 上 方 和 左边 的 像素 。 


这 一 解压 机 制 的 结 采 显示 在 图 右 侧 。 能 看 到 大 部 分 视觉 特征 得 到 
了 保留， 但 在 画 质 和 细 广 上 有 一 些 明 显 损失 ， 特 别 是 在 树 、 角 楼 房 顶 
以 及 房屋 山形 墙 的 格子 通气 孔 等 复杂 区 域 。 另 外 ， 特 别 是 在 解压 目 
80x60 图 片 的 版 本 中 ， 你 能 在 房屋 屋顶 的 和 斜 线 等 区 域 看 到 一 些 相 当 令 
人 不 悦 的 锯 资 。 这 些 现象 被 我 们 称 为 “压缩 缺陷 ” (compression 
artifact) : 不 仅仅 是 细节 的 损失 ， 而 且 有 损 压 缩 的 某 种 方法 会 在 接 下 
来 的 解压 中 引入 明显 的 新 特征 。 


尽管 抛弃 把 戏 在 理解 有 损 压 缩 的 基本 思想 上 很 有 用 ， 但 在 这 里 描 
述 的 简单 抛弃 把 戏 却 极 少 用 到 。 计 算 机 的 确 会 抛弃 ”信息 以 实现 有 损 
压缩 ， 但 它们 对 抛弃 哪些 信息 却 要 小 心得 多 。 这 方面 的 常见 例子 之 
一 ， 就 是 JPEG 图 像 压 缩 格式 。JPEG 是 一 种 精心 设计 的 图 像 压 缩 技术 ， 
它 在 效果 上 要 比 每 两 行 〈 列 ) 抛弃 一 行 〈 列 ) 的 抛弃 把 戏 好 很 多 。 仔 
细 看 看 下 面 的 图 ， 将 图 片 的 质量 和 大 小 与 上 图 相 比 。 最 上 方 的 JPEG 图 
片 大 小 为 35 KB， 但 几乎 和 原始 图 片 相同 。 通 过 抛弃 更 多 信息 并 继续 
使 用 JPEG 格 式 ， 我 们 得 到 了 中 间 大 小 为 19 KB 的 图 。 尽 管 房屋 的 格子 
通气 也 有些 模 类 和 细节 上 的 损失 ， 但 中 间 图 乒 的 质量 依然 很 棒 。 但 如 
果 压 缩 得 太 厉害 ，JPEG 格 式 也 会 有 压缩 缺陷 : 最 底部 的 JPEG 岁 被 压缩 
到 只 有 12 KB， 你 能 看 到 天 空中 出 现 了 一 些 块 状 效果 ， 在 房 顶 斜 线 右 
边 的 天 空 也 出 现 了 一 些 令 人 不 快 的 斑点 。 


尽管 JPEG 抛 弃 战略 的 细 市 太 过 技术 化 ， 在 这 里 不 能 完整 搬 述 ， 但 
这 项 技术 的 基本 原理 还 算 好 说 。JPEG 首 先 将 整 张 图 片 划分 为 8x8 像 素 


的 小 方块 ， 每 个 方块 都 会 被 单独 压缩 。 注 意 ， 在 没有 压缩 的 情况 下 ， 
每 个 方块 代表 8x8=64 个 数字 。 (我 们 假设 这 是 张 黑 日 照片 一 一 如 采 它 
征 彩 色 匈 片 ， 那 么 吏 会 有 三 种 不 同 的 颜色 ， 数 字 会 是 原来 的 三 倍 ， 但 
在 这 里 我 们 不 要 担心 这 一 细 方 。) 如 果 方 块 恰好 只 有 一 种 颜色 ， 整 个 
方块 融 能 由 一 个 数字 代表 ， 而 计算 机 残 能 "抛弃 ”63 个 数字 。 如 果 方 块 
大 部 分 由 一 种 颜色 组 成 ， 只 有 少数 像素 的 颜色 略 有 不 同 〈 也 许 一 片 天 
空 的 灰 度 都 相同 ) ， 计 算 机 也 可 以 用 单个 数字 代表 方块 ， 让 方块 得 到 
好 的 压缩 结 有 末 ， 并 在 稍 后 解压 时 只 出 现 少 量 错 误 。 在 上 图 中 的 最 后 一 
张 图 中 ， 天 空中 一 些 8x8 的 块 ， 就 是 采用 这 种 方法 压缩 ， 导 致 出 现 了 
一 此 时 色 硼 块 * 


JPEG[35KB] 


JPEG[19KBI] 


JPEG[12KBI] 


: 缩 得 到 的 画 质 更 低 * 这 里 展示 了 使 有 


三 种 不 同 JPEG 质 量 级 别 压 
分 


间 也 最 多 。 最 下 面 日 


有 损 压 缩 机 制 ， 更 高 的 压 


种 
人 / 们 


缩 后 


在 天 


名 


图 片 质量 最 低 ， 要 求 的 存储 空间 不 到 最 上 


高 ， 同 时 要 求 的 存储 空 


| 一 张 照片 后 得 到 图 片 。 最 上 面 的 图 片 质 量 最 高 
到 片 的 一 半 ， 但 却 有 明显 


空 和 房 顶 边缘 。 


上 的 压缩 缺 陷 一 一 特别 是 


如 果 8x8 方 块 从 一 种 颜色 渐变 为 另 一 种 颜色 〈 比 如 左边 是 深 灰 


右边 是 浅 灰 色 ) ， 
灰 的 值 和 一 个 浅 灰 的 值 。JPEG 算 法 并 不 一 定 这 


0 从 到 》 内 有 2 


一 | 条 


运作 ， 但 它 使 用 了 相 


同 的 思想 : 如 果 一 个 8x8 方 块 符合 一 些 已 知 模式 如 时 时 色 (constant 
color) 或 渐变 色 (smoothly varying color) 的 组 合 ， 那 么 其 大 部 分 信息 
就 可 以 被 抛弃 ， 只 需 存 储 每 个 模式 的 级 别 或 量 即 可 。 


JPEG 格 式 在 图 片上 效果 良好 ， 但 对 音频 和 音乐 文件 呢 ? 这 些 文 件 
也 能 使 用 有 损 压 缩 去 压缩 ， 而 且 使 用 了 相同 的 基本 思想 : 抛弃 对 成 品 
影响 很 小 的 信息 。MP3 和 AAC 等 流行 首 乐 压缩 格式 通常 使 用 和 JPEG 一 
样 的 高 级 方法 。 音 频 也 会 被 划分 成 块 ， 每 个 块 都 会 被 单独 压缩 。 在 
JPEG 中 ， 以 特定 方式 变化 的 块 能 用 少量 数字 形容 。 不 过 ， 音 频 压缩 格 
式 也 能 利用 与 人 耳 有 天 的 已 知事 实 。 特 别 是 ， 有 些 种 类 的 声音 对 人 只 
有 很 小 的 影响 或 没有 影响 ， 因 此 压缩 算法 能 在 不 降低 输出 质量 的 情况 


下 消除 这 些 声音 。 


压缩 算法 的 起 产 


本 章 描述 的 同 前 把 戏 一 一 用 于 ZIP 文 件 中 的 压缩 方法 之 一 一 一 以 
LZ77 算 法 为 计算 机 科学 家 所 熟知 。 这 一 算法 由 两 位 以 色 列 计算 机 科学 
家 亚伯拉罕 - 伦 佩 尔 (Abraham Lempel) 以 及 雅 各 布 : 齐 夫 (Jacob Ziv) 
于 1977 年 发 表 。 


不 过 ， 要 妃 调 压缩 算法 的 起 源 ， 我 们 需要 把 科学 史 癌 前 推 30 年 。 
我 们 已 经 了 解 了 克 劳 德 :香农 ， 那 位 以 其 1948 年 论文 创建 信息 理论 领域 
的 贝尔 实验 室 科学 家 。 香 农 是 纠 错 码 故事 中 (第 五 章 ) 的 两 位 主要 英 
雄 之 一 ， 但 他 以 及 他 于 1948 年 发 表 的 论文 在 压缩 算法 的 出 现 上 也 扮演 
了 重要 角色 。 


这 并 非 偶 然 。 事 实 上 ， 纠 错 码 和 压缩 算法 是 同一 枚 硬币 的 两 面 。 
两 者 都 来 目 了 见 余 的 想法 ， 我 们 在 第 五 章 详 细 介 绍 了 元 余 的 概念 。 如 采 
一 个 文件 有 元 余 ， 它 束 比 必要 的 长 度 长 。 这 里 重复 一 个 第 五 草 的 簿 单 


例子 ， 文 件 可 以 使 用 单词 “five” 来 代 玲 数字 “5”。 那样 的 话 ， 像 “fivq” 这 
样 的 错误 束 能 被 轻易 识别 和 纠正 。 因 此 ， 纠 错 码 能 被 视 为 向 消息 或 文 
件 中 添加 元 余 的 原则 性 方法 。 


压缩 算法 正好 相反 : 它们 会 从 消 居 或 文件 中 移 除 见 余 。 很 容易 想 
象 一 个 压缩 算法 会 注意 到 文件 中 经 常 使 用 单词 "five”， 并 用 一 个 更 短 的 
符号 取代 它 (甚至 有 可 能 是 符号 “5”) ， 正 好 反 转 了 纠 错 码 过 程 。 在 现 
实 中 ， 压 缩 和 纠 错 并 不 会 像 这 样 彼此 抵消 。 相 反 ， 好 的 压缩 算法 会 移 
除 低 效 见 余 ， 而 纠 错 编 码 会 增加 为 一 种 更 高 效 的 见 余 。 因 此 ， 首 先 压 
缩 一 条 信息 ， 表 往 里 面 添 加 一 些 纠 错 码 非常 常见 。 


再 说 回 香 农 ， 他 于 1948 年 发 明 的 重要 论文 除了 许多 卓越 页 献 之 
外 ， 还 包含 对 最 早期 压缩 技术 之 一 的 描述 。 麻 省 理工 学 院 教 授 罗 伯 特 ， 
法 诺 (Robert Fano) 大 约 在 同时 发 明了 这 一 技术 ， 这 一 方法 现在 以 香 
农 一 法 诺 编 码 (Shannon-Fano coding) 命名 。 事 实 上 ， 香 农 一 法 诺 编 
码 是 一 种 实施 更 短 符 号 把 戏 的 特殊 方法 ， 我 们 在 本 划 前 面 描述 了 更 短 
符号 把 戏 。 我 们 很 快 束 会 知道 ， 香 农 一 法 诺 编码 很 快 束 让 男 一 种 算法 
取代 ， 但 这 一 方法 非常 有 效 ， 并 存活 到 了 今天 ， 成 为 ZIP 文 件 格式 的 可 
选 压 缩 方 法 之 一 。 


香农 和 法 诺 都 意识 到 ， 尽 管 他 们 的 方法 都 既 实 用 义 高 效 ， 但 却 不 
征 最 好 的 算法 : 香农 通过 算术 证 明了 肯定 有 更 好 的 压缩 技术 存在 ， 但 
还 未 找到 实现 它们 的 方法 。 同 时 ， 法 诡 在 麻 省 理工 教授 一 门 信 息 理 论 
的 研究 生 课程 ， 他 将 实现 优化 压缩 的 问题 作为 该 课程 学 期 论文 的 可 选 
项 之 一 。 出 人 意料 的 是 ， 法 庄 的 一 位 学 生 解 决 了 这 一 问题 ， 得 到 了 一 
种 针对 每 个 符号 取得 最 佳 可 能 压缩 的 方法 。 这 名 学 生 束 是 大 卫 : 霍 夫 
曼 ， 他 的 技术 一 一 现在 以 霍 夫 曼 编码 来 命名 一 一 则 十 更 短 符号 把 戏 的 
男 一 个 例子 。 霍 夫 曼 编码 仍然 是 一 种 基础 压缩 算法 ， 被 广 沁 用 于 通信 
和 数据 存储 系统 。 


译文 选 自 张 宇 译本 。 


译 者 注 


FE: 答案 是 字母 A 重复 251 次 。 


第 八 草 ”数据 库 一 一 追求 一 致 性 的 征程 


“数据 ! 数据 ! 数据 ! ”他 不 耐烦 地 喊 
道 : “没有 数据 怎么 推导 。” 


一 一 阿 巧 -柯南 : 道 尔 

《福尔摩斯 探 案 集 》 之 《 桐 山 毛 样 案 》 

(The Adventure of the Copper Beeches) 
想象 如 下 神秘 仪式 : 一 个 人 从 桌 上 拿 起 一 省 特别 印 制 的 纸 (支票 
簿 ) ， 在 上 面 写 下 一 些 数字 ， 再 加 上 一 个 禹 花饰 的 签名 。 随 后 ， 这 个 
人 把 这 栓 纸 最 上 面 的 一 张 纸 括 下 来 ， 放 进 信 封 ， 再 用 男 一 张 纸 ( 邮 
票 ) 贴 在 信封 正面 。 最 后 ， 这 个 人 把 信封 带 到 外 面 ， 走 过 街道 尽头 ， 

将 信封 放 入 一 个 大 箱子 内 。 


这 是 任何 交 账 单 的 人 一 一 电话 账单 、 电 费 账 单 、 信 用 卡 账单 等 
每 月 都 要 进行 的 仪式 。 直 到 21 世 纪 之 交 时 ， 在 线 账单 支付 和 在 线 
银行 系统 才 发 展 起 来 。 和 这 些 系 统 的 简便 性 相 比 ， 之 前 基于 纸张 的 方 
法 费时 费力 、 极 其 低 效 。 


哪些 技术 让 这 一 转变 成 为 可 能 ? 最 显然 的 答案 是 互联 网 的 到 来 ， 
没有 互联 网 ， 任 何 形 式 的 在 线 通信 都 不 可 能 。 另 一 项 关键 技术 是 公 铀 
加 密 ， 这 一 点 我 们 已 经 在 第 四 章 讨论 过 。 没 有 公 角 加密， 机 密 财务 信 
忌 束 不 能 通过 互联 网 安全 地 进行 传输 。 不 过 ， 在 线 交 易 至 少 还 需要 为 
一 种 至 关 重 要 的 技术 : 数据 库 。 笠 好 绝 大 多 数 计 算 机 用 户 不 用 意识 到 
数据 库 的 存在 ， 但 基本 上 所 有 在 线 交 易 都 会 使 用 成 熟 的 数据 库 技 术 处 
理 。 计 算 机 科学 家 们 自从 20 世 纪 70 年 代 束 开始 开发 数据 库 技术 。 


数据 库 针 对 交易 处 理 中 的 两 个 主要 问题 : 高 效 性 和 可 靠 性 。 数 据 
库 通 过 算法 实现 高 效 性 和 可 靠 性 ， 这 些 算法 允许 成 和 十 上 万 的 客户 在 不 
产生 任何 冲突 或 不 一 致 的 情况 下 同时 进行 交易 ， 也 可 以 在 硬盘 等 计算 
机 组 件 出 现 故障 的 情况 下 保持 数据 完整 ， 而 硬盘 故障 通 币 会 导致 普 重 
的 数据 损失 。 在 线 银行 就 是 一 个 标准 的 需要 卓越 高 效 性 (同时 服务 众 
多 客户 且 不 能 产生 任何 错误 或 不 一 致 ) 和 近乎 完美 的 可 靠 性 的 应 用 例 
子 。 为 收 束 我 们 的 讨论 ， 我 们 会 经 常 返回 在 线 银 行 的 例子 。 


本 章 中 ， 我 们 将 了 解数 据 库 背后 三 种 美丽 的 基础 思想 : 预 写 日 志 
记录 (write-ahead logging) 、 两 阶段 提交 (two-phase commit) 和 关 
系数 据 库 (relational database) 。 这 些 思想 让 存储 特定 种 类 重要 信息 的 
数据 库 技 术 占 据 了 绝对 的 主宰 地 位 。 和 前 面 一 样 ， 我 们 将 答 试 专注 于 
每 种 思想 背后 的 核心 洞 见 ， 认 识 一 种 让 思想 奏效 的 把 戏 。 预 写 日 志 记 
了 永 的 基础 是 “ 待 办 事项 表 把 戏 ” (to-do list trick) ， 我 们 将 首先 处 理 这 一 
把 戏 。 之 后 ， 我 们 会 转移 到 两 阶段 提交 协议 ， 用 简单 但 强大 的 “预备 所 
交 把 戏 ” (prepare-thencommit trick) 描述 。 最 后 ， 我 们 会 通过 了 解 有 
关 “ 虚 表 把 戏 ” (virtual table trick) 的 知识 ， 一 拓 关 系数 据 库 的 世界 。 


但 在 学 习 这 些 把 戏 之 前 ， 让 我 们 先 笠 试 消除 数据 库 的 神秘 感 ， 明 
日 数据 库 是 什么 。 事 实 上 ， 即 便 是 在 技术 性 计算 机 科学 文献 
中 ，“database” (数据 库 ) 这 个 单词 都 代表 很 多 不 同 的 事物 ， 因 此 不 可 
能 给 它 下 一 个 单一 的 、 正 确 的 定义 。 但 绝 大 多 数 专家 部 同意 ， 数 据 库 
有 别 于 其 他 存储 信息 的 方式 的 关键 特征 是 ， 数 据 库 中 的 信息 有 一 个 预 
定义 结构 。 


要 理解 这 里 的 “结构 ”意味 着 什么 ， 让 我 们 首先 来 看 一 个 非 结构 化 
言 尽 的 例子 : 


罗 西 娜 35 岁 ， 她 和 26 岁 的 玛 特 钙 有 朋友。 议定 37 岁 ， 苏 迪 普 31 
岁 。 玛 特 、 静 宜 和 苏 迪 普 都 是 朋友 。 


这 束 是 Facebook 或 MySpace 等 社交 网 站 需要 存储 的 与 其 成 员 有 关 
的 那 类 信息 。 不 过 ， 这 些 社 区 网 站 目 然 不 会 如 此 毫 无 结构 地 存储 信 
思 。 下 面 是 相同 信息 的 结构 化 形式 : 


名 字 ”年龄 朋友 

罗 西 娜 ”35 玛 特 

静 宜 。 37 玛 特 ， 苏 迪 让 
玛 特 26 有 罗 西 娜 ， 静 宜 ， 苏 迪 沁 
苏 迪 普 。 31 静 宜 ， 玛 特 


计算 机 科学 家 称 这 种 结构 为 表 (table) 。 表 的 每 一 行 都 包含 和 单 
件 事情 (在 这 个 例子 里 就 是 一 个 人 ) 有 关 的 信息 。 表 的 每 一 栏 都 包含 
一 个 特定 种 类 的 信息 ， 如 一 个 人 的 年 龄 或 名 字 。 数 据 库 通常 由 许多 表 
组 成 ， 但 为 简单 起 见 ， 我 们 最 开始 的 例子 只 会 使 用 一 个 表 。 


很 显然 ， 让 人 和 计算 机 操纵 结构 化 表格 中 的 数据 ， 要 比 上 个 例子 
中 非 结构 化 的 目 由 文本 远 为 高 效 。 但 数据 库 对 它们 的 作用 要 远 比 便于 


使 用 多 得 多 。 


我 们 进入 数据 库 世 界 的 旅程 将 从 一 个 新 概念 开始 : 一 致 性 
(consistency) 。 我 们 很 快 就 会 发 现 ， 数 据 库 从 业者 痴迷 于 一 致 性 ， 
而 且 这 人 么 做 还 有 着 很 好 的 理由 。 从 人 简单 意义 上 来 说 , “一 致 性 ”指数 据 
库 中 的 信息 并 不 自 相 矛盾 。 如 果 数 据 库 中 有 矛盾 之 处 ， 我 们 就 磁 到 了 
数据 库 管 理 员 最 糟 粽 的 避 梦 ， 不 一 致 。 不 过 ， 一 开始 不 一 致 是 如 何 产 

生 的 呢 ? 想象 上 表 的 前 两 行 略为 改变 : 


名 字 年龄 朋友 
罗 西 娜 ”35 ” 王 特 ， 


ul 


四 
KP 


静 宜 。 37 玛 特 ， 


你 能 发 现 问题 所 在 吗 ? 从 第 一 行 看 ， 罗 西 娜 是 静 宜 的 朋友 。 但 从 
第 二 行 来 看 ， 静 宜 并 没有 成 为 罗 西 娜 的 朋友 。 这 违背 了 朋友 的 基本 概 
念 ， 只 有 两 个 人 同时 征 朋 友 ， 才 能 称 彼 此 为 朋友 。 不 得 不 承认 ， 这 个 
不 一 致 的 例子 相当 温和 和。 想象 一 个 更 严肃 的 例 于 ， 假 设 用 "婚姻 ”的 概 
念 取代 “朋友 ”。 那 么 结果 会 是 A 和 B 结 了 婚 ， 但 B 又 和 C 结 了 婚 一 一 这 
种 情况 在 许多 国家 都 违法 。 


实际 上 ， 当 痢 数 据 加 入 数据 库 时 ， 这 种 不 一 致 很 容易 避免 。 计 算 
机 非常 擅长 照章 办 事 ， 因 此 让 数据 库 遵循 “如 果 A 和 B 结 了 婚 ， 那 么 B 必 
须 也 和 A 结 婚 "的 规则 会 很 容易 。 如 宁 有 人 试图 输入 一 条 违反 这 条 规则 
的 新 行 ， 他 们 会 收 到 一 条 错误 消 轧 ， 输 入 也 会 失败 。 因 此 ， 在 简单 规 
则 的 基础 上 确保 一 致 性 并 不 需要 任何 机 巧 把 戏 。 


但 其 他 种 类 的 不 一 致 需要 更 为 精巧 的 解决 方案 。 我 们 将 在 下 一 部 
分 研究 其 中 一 种 不 一 致 情况 。 


事务 和 行 办 事项 表 把 戏 


事务 (Transaction) 极 有 可 能 是 数据 库 世 界 中 最 重要 的 思想 。 但 
要 理解 它们 是 什么 ， 以 及 它们 为 什么 必要 ， 我 们 需要 接受 有 关 计 算 机 
的 两 个 事实 。 你 也 许 非 常熟 悉 第 一 个 事实 : 计算 机 程序 会 月 演 当 
一 个 程序 般 泪 时 ， 它 会 丢掉 所 有 正在 处 理 的 东西 。 只 有 安放 在 计算 机 
文件 系统 中 的 信息 会 得 到 保存 。 我 们 要 知道 的 第 二 个 事实 不 太 为 人 所 
知 ， 但 却 极其 重要 : 硬盘 和 内 存 条 等 计算 机 存储 设备 一 次 只 能 写 入 少 
量 数据 一 一 基本 上 在 500 个 字符 左右 。 (如 果 你 对 技术 术语 感 兴趣 ， 我 
这 里 说 的 是 硬盘 局 区 大 小 <sector size> ， 通 常 一 个 而 区 可 以 存放 512 个 
字 市 的 信息 。 而 内 存 的 相关 度量 单位 是 页 大 小 <page size> ， 闪 存 每 页 
能 存储 成 千 上 万 个 字 节 的 信息 。) 作为 计算 机 用 户 ， 我 们 从 未 注意 在 
一 台 设 备 上 存储 数据 时 的 小 容量 限制 ， 因 为 现代 设备 每 秒 能 执行 成 干 


上 万 次 这 种 500 个 字符 的 写 入 操作 。 但 磁盘 内 容 每 次 只 能 改变 数理 个 字 
符 的 现实 依旧 。 


这 究竟 和 数据 库 有 什么 关系 ? 它 产 生 了 一 个 极其 重要 的 后 果 : 
般 来 说 ， 计 算 机 在 任何 时 候 都 只 能 更 新 一 行 数 据 库 信息 。 不 笠 的 是 ， 
上 面 那 个 非常 小 的 位 单 例子 并 没有 展示 这 一 点 。 上 面 整个 表 只 包含 不 
到 200 个 字符 ， 因 此 在 这 个 特例 里 ， 计 算 机 应 该 能 一 次 更 新 两 行 。 但 通 
常 来 说 ， 对 于 任何 一 个 大 小 合理 的 数据 库 而 言 ， 更 改 两 行 的 确 需 要 两 
次 单独 的 磁 僵 操作 。 


在 了 解 了 这 些 背 景 后 ， 我 们 就 能 触及 问题 核心 了 。 许 多 对 数据 库 
看 似 简 单 的 变更 要 求 更改 两 行 或 更 多 。 我 们 现在 已 经 知道 ， 更 改 两 行 
不 能 通过 一 次 磁盘 操作 实现 ， 因 此 数据 库 更 新 会 导致 两 次 或 更 多 的 磁 
盘 操 作 。 但 计算 机 可 能 在 某 个 时 间 朋 演 。 如 果 计 算 机 在 这 样 的 两 次 们 、 
盘 操 作 之 间 月 尝 怎 么 办 ? 计算 机 会 重启 ， 但 它 会 忘掉 之 前 计划 执行 的 
操作 ， 有 可 能 一 些 必 要 更 改 从 未 进行 。 换 言 之 ， 数 据 库 可 能 处 于 不 一 
致 状态 ! 


在 这 种 情况 下 ， 般 总 后 的 不 一 致 问题 看 起 来 也 许 会 相当 学 术 化 。 
因此 ， 我 们 将 通过 两 个 例子 来 研究 这 一 极端 重要 的 问题 。 让 我 们 从 一 
个 更 简单 的 数据 库 开 始 : 


这 个 非常 单调 、 令 人 诅 起 的 数据 库 列 出 了 三 个 孤独 的 人 。 现 在 假 
II 我 们 要 更 新 数据 库 来 反映 这 一 令 人 高 兴 的 
事件 。 正 如 你 知道 的 ， 这 一 更 新 需要 同时 更 改 表 前 两 行 一 一 而 且 正 如 


我 们 之 前 讨论 的 ， 这 通常 会 要 求 两 次 单独 的 磁盘 操作 。 假 设 我 刚刚 更 
新 了 第 一 行 。 在 这 次 更 新 后 ， 在 计算 机 有 机 会 执行 第 二 次 磁 强 操作 更 
新 第 二 行 前 ， 数 据 库 的 情况 如 下 : 

名 字 ”朋友 
罗 西 娜 静 宜 


玛 特 ”无 


到 目前 为 止 ， 情 况 一 切 恨 好 。 现 在 ， 数 据 库 程 序 只 需 更 新 第 二 
行 ， 任 务 就 完成 了 。 但 等 等 : 如 果 计 算 机 在 数据 库 程 序 有 机 会 这 么 做 
之 前 驶 般 澳 了 呢 ? 那么 在 计算 机 重启 后 ， 它 不 会 知道 第 二 行 仍 需 要 更 
新 。 数 据 库 会 像 前 面 一 张 图 一 样 : 罗 西 娜 和 静 宜 成 了 朋友 ， 但 静 宜 没 
有 和 罗 西 娜 成 为 朋友 。 这 整 是 让 人 害怕 的 不 一 致 性 。 


我 已 经 提 到 过 ， 数 据 库 操作 员 痴 迷 于 一 致 性 ， 但 直到 现在 ， 一 至 
性 看 起 来 也 不 怎么 像 个 大 事 。 毕 竞 ， 静 宜 在 一 个 地 方 被 记录 和 某 人 成 
为 朋友 ， 在 另 一 个 地 方 的 记录 里 则 没有 朋友 ， 这 真 的 重要 吗 ? 我 们 长 
至 能 想象 出 一 个 经 常 扫描 数据 库 的 目 动 化 工具 ， 寻 找 像 这 样 的 让 慎之 
处 并 修正 它们 。 事 实 上 ， 像 这 样 的 工具 确实 存在 ， 并 被 用 于 一 致 性 处 
于 次 要 位 置 的 数据 库 中 。 你 甚至 可 能 过 到 过 这 样 的 例子 ， 一 些 操 作 系 
统 在 月 汝 后 重启 时 ， 会 检查 整个 文件 系统 的 不 一 致 性 。 


但 确实 存在 不 一 致 性 非常 有 害 且 不 能 为 目 动 化 工具 纠正 的 情况 。 
在 银行 账户 间 转 钱 就 古 个 经 典 例子 。 下 面 是 男 一 个 简单 数据 库 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 800 


扎 迪 存 球 $ 300 


皮 德 罗 支票 $ 150 


假设 扎 迪 要 求 从 她 的 文 票 账户 转 200 美 元 到 她 的 存款 账户 。 就 和 前 
面 的 例 了 于 一 样 ， 这 需要 更 新 两 行 ， 会 连续 用 到 两 次 单独 的 人 ”c 盘 操作 。 
御 完 扎 迪 的 支取 余额 会 减少 到 600 美 元 ， 其 次 她 的 存款 余额 会 增加 a 到 
500 类 元 。 而 如 果 我 们 在 这 两 次 操作 间 遭 遇 衣 涡 ， 数 据 库 看 起 来 会 这 
样 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 600 
扎 迪 存款 $ 300 


皮 德 罗 支票 $ 150 


换 名 话说， 这 对 扎 迪 来 说 完全 是 一 场 灾 难 : 在 朋 江 前 ， 扎 迪 的 两 
个 账户 一 共有 1100 美 元 ， 但 现在 她 只 有 900 美 元 了 。 她 从 未 取 过 钱 ， 但 
200 美 元 就 这 么 完全 消失 了 ! 而 且 还 没有 办 法 侦 测 到 这 一 情况 ， 因 为 数 
据 库 在 怖 让 后 完全 目 相 一 致 。 在 这 里 ， 我 们 遇 到 了 一 种 更 为 细微 的 不 
一 致 性 : 新 数据 库 与 其 朋 误 前 的 状态 不 一 致 。 


这 点 很 重要 ， 也 值得 更 细致 地 进行 研究 。 在 第 一 个 不 一 致 性 的 例 
子 里 ， 我 们 最 终 得 到 的 数据 库 目 证 为 不 一 致 : A 和 B 成 为 朋友 ， 但 B 却 
没有 和 A 成 为 朋友 。 这 种 不 一 致 性 只 需 通 过 检查 数据 库 就 能 侦 测 到 
(尽管 侦 测 过 程 可 能 会 非常 耗 时 ， 如 果 数 据 库 包含 数 百 万 力 或 数 十 亿 
条 记录 的 话 ) 。 在 第 二 个 不 一 致 性 的 例子 里 ， 如 果 把 数据 库 所 处 的 状 
态 当 作 某 个 时 刻 的 截图 ， 那 么 这 一 状态 完全 合理 。 没 有 规则 规定 这 些 
账户 的 余额 必须 是 多 少 ， 或 规定 余额 之 间 存 在 任何 关系 。 不 过 ， 如 果 
我 们 按时 间 顺 序 检查 数据 库 状态 ， 丈 能 观察 到 不 一 致 行为 。 有 三 个 事 
实 和 这 一 情况 有 关 : (1) 在 开始 转账 前 ， 扎 迪 有 1 100 美 元 (2) 在 
裔 并 后， 她 有 900 美 元 (3) 在 干扰 期 间 ， 她 并 未 取 钱 。 这 三 个 事实 


放 在 一 起 束 显 得 不 一 致 ， 但 不 一 致 性 不 能 通过 在 特定 时 刻 检查 数据 库 
侦 测 到 。 


为 避免 这 两 种 不 一 臻 性， 数据库 研究 人 员 们 提出 了 “事务 ”的 概念 
一 如果 想 让 数据 库 最 后 保持 一 致 性 ， 允 必 须 在 数据 库 上 完成 一 系列 
更 改 。 如 果 一 次 事务 中 只 执行 了 一 些 更 改 ， 那 么 数据 库 最 后 束 可 能 不 
一 致 。 这 一 想法 很 简单 ， 但 极其 有 效 。 数 据 库 程 序 员 可 以 发 出 
如 “begin transaction”( 开 始 事务 ) 这 样 的 指令 ， 然 后 对 数据 库 做 出 大 
量 互相 依赖 的 更 改 ， 并 以 “end transaction” (终止 事务 ) 指令 完成 。 数 
据 库 能 保证 程序 员 的 更 改 都 会 完成 ， 即 便 运 行 数据 库 的 计算 机 在 事务 
中 途 须 溃 并 重启 。 


为 确保 绝对 正确 ， 我 们 还 应 该 意识 到 另 一 种 可 能 性 的 存在 : 在 崩 
溃 并 重 局 后 ， 数 据 库 也 可 能 返回 事务 开始 前 的 状态 。 但 如 果 出 现 了 这 
种 情况 ， 程 序 员 会 收 到 一 条 事务 失败 ， 必 须 重 新 提交 的 通知 ， 以 防 造 
成 任何 损害 。 我 们 稍 后 将 更 细致 地 讨论 这 种 可 能 性 ， 在 关于 “ 回 滚 ” 事 
务 (rolling back transaction) 部 分 讲 到 。 至 于 现在 ， 关 键 在 于 不 管事 务 
是 否 完 成 还 是 回 深 ， 数 据 库 仍然 保持 一 致 性 。 


忠 目 前 的 描述 来 看 ， 我 们 似乎 没有 必要 痴迷 于 月 并 的 可 能 性 。 毕 
莞 ， 朋 浇 在 运行 现代 应 用 程序 的 现代 操作 系统 上 极 少 发 生 。 对 这 一 问 
题 有 两 种 回答 。 首 和 完 ， 这 里 所 说 的 “ 骨 江 ”相当 宽 沁 :包括 任何 可 能 导 
致 计算 机 停止 运作 进而 损失 数据 的 事件 。 可 能 的 事件 包括 断 电 、 硬 副 
出 错 、 其 他 硬件 出 错 以 及 操作 系统 或 应 用 程序 中 的 漏洞 。 其 次 ， 即 便 
这 些 沁 指 的 月 涡 极 少 发 生 ， 一 些 数 据 库 也 不 能 承受 朋 江 的 风险 ， 银 
行 、 保 险 公司 和 其 他 数据 代表 实际 金钱 的 组 织 ， 这 些 组 织 不 能 承受 任 
何 情况 下 记录 中 出 现 不 一 致 性 的 风险 。 


上 面 描述 的 解决 方案 的 简洁 性 (开始 一 笔 事务 ， 执 行 必 要 的 操 
作 ， 然 后 终止 事务 ) 听 起 来 也 许 太 过 美好 ， 不 能 成 真 。 事 实 上 ， 下 一 
部 分 摘 述 的 “ 竺 办 事项 列表 ?把戏 殉 相对 倘 单 ， 它 也 能 完成 处 理事 务 。 


| 待 办 事项 列表 把 戏 


并 不 是 所 有 人 都 井井有条 “。 但 不 管 我 们 是 否 井 井 有 条 ， 我 们 都 见 
过 非常 有 条 理 的 人 使 用 的 强力 武大 之 一 : 行 办 事项 列表 。 也 许 你 并 不 
喜欢 制作 列表 ， 但 很 难 质疑 其 有 用 性 。 如 采 你 在 一 天 中 有 10 项 任务 要 
完成 ， 把 它们 写 下 来 一 一 最 好 按 完成 效率 排序 一 一 就 是 个 非常 好 的 开 
端 。 当 你 在 工作 日 中 间 时 刻 分 心 “是 否 该 说 * 衣 省 ”? ) 时 ， 一 张 待 办 
事项 列表 会 尤其 有 用 。 如 采 你 不 知 为 何 瑟 记 了 剩 下 的 任务 ， 扫 一 眼 待 
办 事项 列表 束 能 让 你 记 起 。 


数据 库 事 务 要 使 用 一 种 特殊 的 得 办 事项 列表 来 完成 。 这 也 是 我 们 
称 之 为 “得 办 事项 列表 ”把 戏 的 原因 ， 尽 管 计算 机 科学 家 用 “ 预 写 日 志 记 
录 ” 这 一 术语 称呼 它 。 得 办 事项 列表 的 基本 思想 是 ， 维 护 一 个 数据 库 计 
划 采 取 的 动作 日 志 。 日 志 存 储 在 硬盘 或 其 他 一 些 永 久 性 存储 介质 中 ， 
这 样 ， 日志 中 的 信息 束 能 幸免 于 朋 江 和 重启。 在 一 项 事务 的 任何 动作 
得 到 执行 前 ， 它 们 都 被 记录 在 日 志 中 ， 然 后 再 你 存 到 磁盘 里 。 如 采 事 
务 成 功 完成 ， 我 们 惑 能 删除 日 志 中 的 待 办 事项 列表 ， 进 而 节省 一 些 罕 
间 。 如 此 ， 上 面 描述 的 扎 迪 转账 事务 将 分 两 步 进行 。 首 和 完 ， 下 图 左 侧 
的 数据 库 表 不 动 ， 我 们 在 日 志 中 写 下 本 次 事务 的 待 办 事项 列表 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 800 
扎 迪 存款 $ 300 


皮 德 罗 支票 $ 150 


预 写 日 志 
1. 开始 转账 事务 


2. 将 扎 迪 的 支票 账户 余额 从 800 美 元 变 为 600 美 元 


3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 


4. 终止 转账 事务 


在 确保 日 志 项 保存 到 了 某 种 永久 性 存储 介质 (如 磁盘 ) 上 后 ， 我 
们 对 表 进 行 计划 好 的 变更 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 600 
扎 迪 存款 $ 500 


皮 德 罗 支票 $150 


预 写 日 志 
1. 开始 转账 事务 


2. 将 扎 迪 的 支票 账户 余额 从 800 美 元 变 为 600 美 元 


3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 


4. 终止 转账 事务 


假设 变更 已 保存 到 磁盘 ， 日 志 项 束 能 被 删除 了 。 


但 这 个 例子 很 容易 。 假 如 计算 机 在 事务 中 途 意外 地 朋 浇 了 呢 ? 和 
前 面 一 样 ， 让 我 们 假设 朋 溃 发 生 在 扎 迪 的 支票 账户 被 扣 除 款项 之 后 ， 
储蓄 账户 增加 鞭 项 之 前 。 计 算 机 重 局 ， 数 据 库 重 局 后 在 硬盘 中 发 现 如 
下 信息 : 


账户 名 称 账户 类 型 账户 余额 
扎 迪 支票 $ 600 
扎 迪 存款 $ 300 


皮 德 罗 支票 $ 150 


预 写 日 志 

1. 开始 转账 事务 

2. 将 扎 迪 的 支票 账户 余额 从 800 美 元 变 为 600 美 元 
3. 将 扎 迪 的 储蓄 账户 余额 从 300 美 元 变 为 500 美 元 


4. 终 止 转账 事务 


大 大 小 小 的 原子 性 


理解 事务 还 有 另外 一 种 途径 : 从 数据 库 用 户 的 观点 来 看 ， 每 一 笔 
事务 都 是 原子 态 (atomic) 。 尽 管 物理 学 家 们 许多 年 前 就 知道 了 如 何 
拆散 原子 , “atomic” 的 原意 来 目 布 腊 ， 意 味 着 “不 可 分 割 ”。 当 计算 机 科 
学 家 说 “原子 仿 " 时 ， 他 们 指 的 征 原 意 。 因 此 ， 一 笔 原 始 态 的 事务 不 能 
被 分 成 更 小 的 操作 ， 要么 整 笔 事 务 成 功 地 完成 ， 要么 数据 库 处 于 其 原 
始 状 态 ， 就 像 事 务 从 未 开始 一 般 。 


待 办 事项 列表 把 戏 给 了 我 们 原子 态 事务 ， 反 过 来 又 保证 了 一 致 
性 。 这 是 我 们 典型 例子 一 一 一 个 针对 在 线 银行 的 高 效 、 完 全 可 靠 的 数 
据 库 一 一 中 的 一 个 关键 要 素 。 不 过 ， 我 们 还 未 达到 那 一 步 。 一 致 性 并 
不 提供 足够 的 高 效 性 或 可 靠 性 。 当 和 我 们 很 快 整 会谈 到 的 锁定 技术 
(locking technique) 结合 时 ， 待 办 事项 列表 把 戏 在 数 千 名 消费 者 同时 
连接 数据 库 时 都 能 保持 一 致 性 。 这 的 确 会 提高 效率 ， 因 为 许多 消费 者 
能 同时 得 到 服务 。 而 且 竺 办 事项 列表 把 戏 还 提供 了 一 种 衡量 可 靠 性 的 
好 方法 ， 因 为 它 能 阻止 不 一 致 性 。 等 别 征 ， 竺 办 事项 列表 把 戏 排除 了 
数据 损坏 ， 但 并 未 消除 数据 丢失 。 下 一 个 数据 库 把 戏 一 一 预备 提交 把 
戏 一 一 将 为 朝 癌 阻 止 任何 数据 丢失 的 目标 做 出 巨大 进步 。 


用 于 复制 数据 库 的 预备 提交 把 戏 


我 们 游览 精巧 数据 库 技术 的 旅程 将 继续 ， 接 下 来 我 们 将 遇 到 名 
为 “预备 提交 把 戏 ” 的 算法 。 要 了 解 这 一 把 戏 的 动机 ， 我 们 需要 理解 两 
个 与 数据 库 有 关 的 事实 : 首先 ， 它 们 会 被 复制 ， 也 束 是 说 同一 数据 库 
的 多 份 拷贝 被 存储 在 不 同 地 点 ， 其 次 ， 有 时 候 数 据 库 事 务必 须 被 取 
消 ， 这 被 称 为 “ 回 深 ” 或 “放弃 ”一 次 事务 。 在 转 入 预备 提交 把 戏 之 前 ， 
我 们 将 位 短 地 了 解 这 两 个 概念 。 


由 复 和 数据 库 


通过 完成 或 回 深 朋 浇 前 正在 进行 的 事务 ， 生 办 事项 列表 把 戏 允 许 
数据 库 从 特定 种 类 的 崩溃 中 恢复 。 但 前 提 是 假设 所 有 在 有 崩 江 前 保存 的 
数据 都 还 在 。 假 如 计算 机 硬盘 永久 损坏 ， 其 中 部 分 或 所 有 数据 都 丢失 
了 呢 ? 这 只 是 计算 机 永久 丢失 数据 的 途径 之 一 。 其 他 原因 包括 软件 漏 
洞 “数据库 程 序 本 身 或 操作 系统 漏洞 ) 和 硬件 出 错 。 这 些 问题 都 能 导 
致 计算 机 柳 兰 你 认为 安全 地 存储 在 硬盘 上 的 数据 ， 抹 本 并 用 垃圾 代 
伦 。 很 明显 ， 待 办 事项 列表 把 戏 在 出 现 这 种 情况 时 不 能 帮助 我 们 。 


然而 ， 在 一 些 情 况 中 根本 不 能 出 现 数据 丢失 。 如 果 银 行 丢失 了 你 
的 账户 信息 ， 你 会 极度 郁 问 ， 银 行 可 能 会 面临 挛 重 的 法 律 和 财务 惩 
加 。 这 也 适用 于 证 券 交 易 公 司 ， 假 如 它 在 执行 你 下 的 订单 时 丢失 了 区 
易 细 记 。 的 确 ， 任 何 有 可 观 网 络 销售 额 的 公司 〈《 易 贝 和 亚马逊 就 是 最 
大 的 例子 ) 都 承担 不 起 损失 或 损坏 任何 消费 者 信息 的 后 果 。 但 在 有 成 
于 上 万 台 计 算 机 的 数据 中 心里 ， 每 天 都 有 许多 组 件 (特别 是 硬盘 ) 出 
错 。 这 些 组 件 上 的 数据 每 天 都 丢失 。 银 行 如 何 能 在 面临 这 种 数据 丢失 
的 惨状 下 保持 你 的 数据 安全 呢 ? 


显然 同时 也 广泛 使 用 的 解决 方案 是 ， 保 有 两 份 及 以 上 的 数据 库 找 
贝 。 每 份 数据 库 揽 贝 都 被 称 为 复制 品 (replica) ， 所 有 找 贝 的 集合 被 
称 为 复制 数据 库 (replicated database) 。 通 常 ， 复 制品 在 地 理 上 分 开 
(也 许 位 于 相 隅 数 百 英里 的 数据 中 心里 ) ， 因 此 即便 其 中 一 份 复 制品 
被 一 场 目 然 灾 难 抹 挥 ， 男 一 份 复制 品 也 还 在 。 


我 曾经 听 到 一 名 计算 机 企业 高 管 这 么 描述 在 2001 年 9 月 11 日 锥 怖 分 
子 袭 击 纽 约 世 贸 中 心 双子 塔 后 该 公司 客户 的 经 历 。 那 家 计算 机 企业 有 
五 个 主要 客户 在 双子 塔 中 ， 所 有 客户 都 运行 着 地 理 上 分 开 的 复制 数据 
库 。 其 中 四 位 客户 能 依靠 剩 下 的 数据 库 拷贝 基本 不 受 干 扰 地 继续 开展 
业务 。 不 入 的 是 ， 第 五 位 客户 在 两 座 双 子 塔 中 都 有 一 份 复 制品 ， 但 这 
两 份 都 丢失 了 1! 这 位 客户 只 能 在 从 站 外 档案 备份 中 恢复 数据 库 后 ， 才 
得 以 重新 开展 业务 。 


注意 ， 复 制 数据 库 和 “备份 ”一 些 数据 的 常见 概念 有 很 大 不 同 。 备 
份 是 某 个 特定 时 刻 对 一 些 数据 的 快照 一 一 对 于 手动 备份 ， 快 照 在 你 运 
行 备 份 程序 时 进行 ， 而 目 动 备份 通 肖 会 在 每 周 或 每 天 的 某 个 特定 时 刻 
对 系统 进行 快照 ， 比 如 每 天 早晨 2 点 钟 。 换 言 之 ， 一 个 备份 是 一 些 文 
件 、 一 个 数据 库 或 其 他 任何 你 需要 额外 拷贝 的 东西 的 完全 拷贝 。 


不 过 ， 根 据 定 义 ， 备 份 并 不 一 定 最 新 : 如 果 在 一 次 备份 之 后 做 出 
一 些 变更 ， 这 些 变更 不 会 被 保存 在 备份 中 。 相 反 ， 复 制 数 据 库 随时 保 
持 数 据 库 的 所 有 拷贝 同步 。 每 次 数据 库 中 任 一 项 哪怕 出 现 最 细微 的 变 
更 ， 所 有 复制 品 都 必须 立即 做 出 变更 。 


很 明显 ， 复 制 是 抵御 数据 丢失 的 绝 佳 方法 。 但 复制 也 存在 危险 : 
它 引 入 了 男 一 种 可 能 的 不 一 人 怪 。 如 采 一 个 复制 品 最 后 的 数据 和 男 一 个 
复制 品 不 同 ， 这 时 我 们 该 怎么 办 ? 这 样 的 复制 品 彼此 不 一 致 ， 很 难 或 
不 可 能 判定 哪个 复制 品 中 十 正确 的 数据 。 在 研究 了 如 何 回 滚 事务 后 ， 
我 们 将 再 返回 讨论 这 一 问题 。 


| 回 深 事务 


冒 着 重复 的 风险 ， 让 我 们 和 近 试 回忆 一 下 事务 完 竟 是 什么 : 事务 是 
对 数据 库 的 一 系列 变更 ， 这 些 变更 必须 全 部 执行 以 保证 数据 库 保 持 一 
致 。 在 之 前 对 事务 的 讨论 中 ， 我 们 主要 关注 事务 会 完成 ， 即 便 数 据 库 
在 事务 进行 途中 月 演 。 


但 结果 证 明 ， 有 时 候 出 于 一 些 原因 不 可 能 完成 一 项 事务 。 比 如 ， 
也 许 事务 涉及 癌 数 据 库 中 添加 大 量 数据 ， 而 计算 机 在 事务 中 途 用 完了 
人 磁盘 空间 。 这 一 情况 非常 罕见 ， 但 却 很 重要 。 


男 一 个 更 常见 的 未 能 完成 事务 的 原因 和 男 一 个 名 为 锁定 
(locking) 的 数据 库 概 念 有 关 。 在 一 个 繁忙 的 数据 库 中 ， 通 常会 同时 
执行 多 项 事务 。 (想象 一 下 ， 假 如 银行 每 次 只 允许 一 名 用 户 转 账 ， 这 
时 会 发 生 什么 情况 一 一 这 种 在 线 银行 系统 的 效能 会 让 人 无 比 震 尺 。) 
在 一 次 事务 进行 中 ， 数 据 库 的 一 些 部 分 会 冻结 ， 这 点 很 重要 。 比 如 ， 
如 有 果 事 务 A 同 记录 中 上 传 一 个 罗 西 娜 和 议 宜 成 为 朋友 的 项 ， 而 同时 事 
务 B 从 数据 库 中 删除 了 静 宜 ， 这 会 造成 灾难 性 的 后 末 。 因 此 ， 事 务 A 
将 “锁定 ” 包 侣 静 宜 信息 的 那 部 分 数据 库 。 这 意味 着 那些 数据 被 冻结 
了 ， 其 他 事务 不 能 改变 它 。 在 大 多 数 数据 库 中 ， 事 务 能 锁定 单行 或 单 
列 ， 或 整个 表 。 
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死 锁 (deadlock) : 当 两 次 事务 A 和 B 同 时 党 试 锁定 同一 行 一 一 但 方向 相反 一 一 时 ， 它 们 就 会 


死 锁 ， 都 不 能 进行 。 


很 明显 ， 一 次 只 能 有 一 项 事务 锁定 数据 库 的 某 个 部 分 。 一 旦 该 项 
事务 成 功 完 成 ， 束 会 “解锁 ”之 前 被 它 锁定 的 所 有 数据 。 之 后 ， 其 他 事 
务 束 能 更 改 之 前 被 冻 结 的 数据 。 


乍 一 看 ， 这 似乎 是 一 个 绝 佳 的 解决 方案 ， 但 这 会 导致 一 个 非常 粳 
糕 的 状况 ， 计 算 机 科学 家 称 之 为 死 锁 ， 正 如 上 图 所 示 。 让 我 们 假设 两 
项 事务 A 和 B 同 时 运行 。 正 如 上 图 顶部 所 示 ， 最 初 数据 库 中 没有 行 被 锁 
住 。 之 后 ， 正 如 上 图 中 部 所 示 ，A 锁 住 了 包含 玛丽 信息 的 那 一 行 ，B 锁 
住 了 包含 皮 德 罗 信 息 的 那 一 行 。 过 后 不 久 ，A 发 现 需要 锁 住 皮 德 罗 所 
在 的 行 ，B 发 现 需 要 锁 住 玛 丽 所 在 的 行 一 一 这 一 情形 如 上 图 底部 所 
示 。 注 意 ，A 现 在 需要 锁 住 皮 德 罗 所 在 的 行 ， 但 一 次 只 能 有 一 项 事务 
锁 住 任意 行 ， 但 B 已 经 锁 住 了 皮 德 罗 所 在 的 行 ! 因此 A 需要 等 到 B 结 束 
才能 锁定 。 但 B 只 有 在 锁定 玛丽 所 在 的 行 时 才能 结束 ， 而 玛丽 所 在 的 
行 目前 义 由 A 锁定 。 因 此 B 需 要 等 到 A 结束 才能 锁定 。A 和 B 互 为 死 锁 ， 
因为 每 项 事务 都 必须 等 待 另 一 项 事务 才能 进行 。 它 们 会 永远 僵持 下 
去 ， 这 些 事务 永远 不 会 完成 。 


计算 机 科学 家 已 经 非常 细致 地 人 研究 了 死 锁 ， 许 多 数据 库 都 会 定期 
运行 侦 测 死 锁 的 特殊 程序 。 当 发 现 一 个 死 锁 时 ， 其 中 一 项 死 锁 的 事务 
会 取消 ， 以 便 让 男 一 项 事务 进行 。 但 请 注意 ， 束 和 在 事务 进行 途中 耗 
尽 磁 强 空间 时 所 做 的 一 样 ， 这 要求 具备 撤销 或 “ 回 滚 ? 已 经 部 分 完成 的 
事务 的 能 力 。 现 在 我 们 至 少 知道 了 两 种 事务 需要 回 滚 的 原因 。 还 有 许 
多 其 他 原因 ， 但 我 们 在 此 无 须 深 入 。 根 本 点 在 于 ， 事 务 经 常 因为 不 可 
预料 的 原因 而 不 能 完成 。 


回 深 能 通过 对 每 办 事项 列表 把 戏 稍 作 变 更 来 实现 ， 预 写 日 志 必 须 
包含 足够 的 额外 信息 ， 才 能 在 必要 时 撤销 每 次 操作 。 (这 与 之 前 的 描 
述 相 矛盾 ， 我 们 在 前 面 强 调 每 一 个 日 志 项 要 包含 足够 多 信息 ， 以 便 在 


裔 种 后 重新 执行 操作 。) 这 在 实践 中 很 容易 达成 。 事 实 上 ， 在 我 们 审 
视 的 简单 例子 中 ， 撤 销 信 息 和 重新 执行 的 信息 都 一 样 。 像 “将 扎 迪 的 文 
票 账户 余额 从 800 类 元 变 为 600 类 元 ”这 样 的 项 能 轻易 “撤销 "一 一 只 需 将 
扎 迪 的 支票 账户 余额 从 600 美 元 变 为 800 闫 元。 总 之 : 如果 一 项 事务 需 
要 回 滚 ， 数 据 库 程 序 只 需 通 过 预 写 日 志 (比如 待 办 事项 列表 ) 逆向 操 
作 ， 逆 转 事务 中 的 每 项 操作 。 


预备 近 交 把 戏 


现在 ， 让 我 们 思考 复制 数据 库 中 回 深 事务 之 来 的 问题 。 这 里 的 问 
题 是 : 其 中 一 份 复制 品 可 能 会 遇 到 了 要 求 回 滚 的 问题 ， 而 其 他 复制 品 
则 没有 这 样 的 问题 。 比 如 ,假设 其 中 一 份 复制 品 耗 尽 了 磁 副 空间 ， 而 
其 他 复制 品 仍 有 空间 剩余 。 


一 个 简单 的 类 比 在 这 里 会 很 有 帮助 。 假 设 你 和 三 个 朋友 想 一 起 去 
看 一 部 最 近 上 了 上映 的 电影 。 为 了 让 例子 更 有 趣 ， 让 我 们 把 故事 背景 设 在 
20 世 纪 80 年 代 ， 那 时 还 没有 电子 邮件 ， 因 此 电影 之 行将 通过 电话 组 
织 。 你 会 怎么 组 织 ? 下 面 列 出 了 一 种 可 能 的 方法 : 确定 一 个 放映 电影 
的 时 间 ， 这 个 时 间 要 适合 你 ， 束 你 所 知 这 个 时 间 极 有 可 能 也 适合 你 朋 
友 。 假 设 你 远 择 了 周二 下 午 8 点 。 下 一 步 就 古 打 电话 给 其 中 一 位 朋友 ， 
询问 他 或 她 在 周二 下 午 8 点 是 否 有 空 。 如 果 有 空 ， 你 会 说 “ 太 好 了 ， 用 
笔记 下 来 ， 我 等 下 再 打 回 来 确认 ”。 然后 你 再 打 电 话 给 下 一 位 朋友 ， 做 
相同 的 事 。 最 后 ， 你 打 电 话 给 第 三 位 以 及 最 后 一 位 朋友 ， 提 出 相同 的 
问题 。 如 琳 所 有 人 都 在 周二 晚上 8 点 有 空 ， 你 束 能 做 出 最 终 决 是 ， 确 认 
这 一 事件 ， 并 打 电 话 给 朋友 ， 让 他 们 知晓 。 


这 是 简单 的 情形 。 假 如 一 位 朋友 在 周二 晚上 8 点 没 空 呢 ? 那样 的 
话 ， 你 需要 “ 回 滚 ” 已 经 做 了 的 所 有 工作 ， 重 新 开始 。 在 现实 中 ， 你 可 
能 会 打 电 话 给 每 个 朋友 ， 并 立即 给 出 一 个 新 时 间 ， 但 为 了 让 事情 尽 可 


能 人 简单， 假设 你 打 电 话 给 每 位 朋友 并 说 “不 好 意思 ， 周 二 晚上 8 点 不 合 
适 ， 在 你 的 日 程 上 删 掉 它 把 ， 我 会 很 快 打 电话 告诉 你 新 时 间 ”。 一 旦 做 
完 这 件 事 情 ， 你 号 能 重新 开始 整个 流程 。 


注意 ， 在 你 安排 电影 出 行 的 策略 中 有 两 个 截然 不 同 的 阶段 。 在 第 
一 阶段 ， 你 提出 了 日 期 和 时 间 ， 但 并 非 百 分 之 百 地 确定 。 一 旦 你 发 现 
提议 适用 所 有 人 ， 你 才能 百分之百 地 确定 日 期 和 时 间 ， 但 其 他 人 不 知 
道 。 因 此 ， 你 在 第 二 阶段 给 所 有 朋友 打 电 话 回 去 确认 。 相 反 ， 如 采 一 
个 或 更 多 朋友 不 能 成 行 ， 第 二 阶段 束 包 括 给 所 有 人 打 电 话 取消 。 计 算 
机 科学 家 们 将 之 称 为 两 阶段 提交 协议 ;我 们 称 之 为 "预备 提交 把 戏 ”。 
第 一 阶段 被 称 为 < 预备” 阶段。 第 二 阶段 要 么 是 “提交 ?阶段 ， 要 么 征 “ 撤 
销 ” 阶 段 ， 取 决 于 最 初 提议 十 否 被 所 有 人 接受 。 


有 趣 的 是 ， 这 一 类 比 中 有 个 数据 库 锁 定 的 想法 。 尽 管 我 们 并 未 详 
尽 讨 论 它 ， 你 所 有 的 朋友 在 写 下 电影 出 行 时 都 做 了 一 个 不 详尽 的 承 
诺 : 他 们 承诺 不 会 在 周二 晚 8 点 安排 其 他 事 。 直 到 他 们 收 到 确认 或 取消 
的 回信 为 止 ， 日 程 表 上 的 那个 时 间 段 都 是 “锁定 >” 的， 不 能 被 其 他 事 
务 “ 更 改 ”。 比 如 ， 如 果 其 他 人 打 电 话 给 你 朋友 ， 时 间 恰 好 是 第 一 通电 
话 和 第 二 通电 话 之 间 ， 提 议 在 周二 晚 8 点 观看 一 场 篮 球赛 呢 ? 你 朋友 应 
该 会 说 , “对 不 起 ， 但 我 可 能 在 那个 时 间 有 另 一 场 约会 。 在 那 场 约会 融 
定 前 ， 我 不 能 给 你 确信 是 否 去 看 这 场 篮 球赛 。” 


现在 ， 让 我 们 审视 一 下 预备 提交 把 戏 如 何在 复制 数据 库 中 起 作 
用 。 下 图 展示 了 这 一 想法 。 一 般 来 说 ， 其 中 一 个 复制 品 是 协同 事务 
的 “主管 ” (master) 。 更 确切 点 讲 ， 假 设 有 三 个 复制 品 A、B 和 C，A 是 
主管 。 假 设 数 据 库 需要 执行 一 项 癌 表 中 插入 一 行 狐 数 据 的 事务 。 预 备 
阶段 从 A 锁 定 表 开始 ， 接 下 来 A 将 新 数据 写 入 其 预 写 日 志 。 同 时 ，A 将 
狐 数 据 发 给 B 和 C。B 和 C 也 都 会 锁定 各 目的 表 拷 贝 ， 并 在 日 志 中 写 入 
新 数据 。 然 后 B 和 C 回 A 返 回报 告 它 们 是 否 成 功 地 做 了 这 一 事务 。 接 下 
来 第 二 阶段 开始 ， 如 果 A、B 或 C 中 任 一 项 事务 遇 到 了 一 个 问题 (比如 


耗 尽 磁 强 空间 或 未 能 锁定 表 ) ， 主 管 A 就 知道 事务 必须 回 演 ， 并 通知 
所 有 复制 品 这 一 点 。 但 如 果 所 有 复制 品 都 在 预备 阶段 报告 成 功 ，A 会 
向 每 份 复制 品 发 送 消息 确认 事务 ， 复 制品 接 下 来 会 完成 事务 (如 下 图 
所在 


预备 提交 把 戏 : 主管 复制 品 A 协 同 另外 两 个 复制 品 (B 和 C 


阶段 ， 主 管 复 制品 检查 是 否 所 有 


人 


让 所 有 复制 品 提交 数据 。 


向 表 中 添加 一 些 新 数 # 


制品 都 能 完成 事务 。 


所 有 事情 都 妥当 ， 


主 


带 回 滚 操作 的 预备 提交 把 戏 ， 本 图 顶部 和 上 一 张 图 顶部 一 样 。 但 在 预备 阶段 ， 其 中 一 个 复制 
。 结 


品 出 错 。 结 果 ， 本 图 底部 是 “ 撒 销 "阶段 ， 其 中 每 个 复制 品 都 必须 回 深 事 务 。 


到 目前 为 止 ， 我 们 的 处 理 方式 中 有 两 种 数据 库 把 戏 : 竺 办 事项 列 
表 把 戏 和 预备 提交 把 戏 。 它 们 对 我 们 有 什么 用 ? 通过 综合 这 两 个 把 
戏 ， 银 行 一 一 以 及 其 他 任何 在 线 实 体 一 一 都 能 使 用 原子 态 事 务 布置 复 
制 数据 库 。 而 这 能 在 同时 为 成 千 上 万 的 客户 提供 高 效 服 务 ， 且 基本 上 
不 会 出 现 不 一 致 或 数据 丢失 。 不 过 ， 我 们 还 未 深入 数据 库 的 核心 : 数 
据 如 何 构建 ， 查 询 如 何 得 到 回答 ? 最 后 一 个 数据 库 把 戏 会 为 这 些 问题 


提供 一 些 答案 。 


有 关系 数据 库 和 谍 才 把 戏 


在 前 面 的 所 有 例子 中 ， 数 据 库 都 只 由 一 张 表 组 成 。 但 现代 数据 表 
技术 的 真正 威力 在 有 多 张 表 的 数据 库 中 才 释 放出 来 。 关 系数 据 库 的 基 
本 思想 是 ， 每 张 表 都 存储 不 同 的 信息 集 ， 但 不 同 表 中 的 个 体 通 音 都 以 
某 种 方式 相连 。 因 此 ， 一 个 公司 的 数据 库 也 许 是 由 不 同 的 表 组 成 ， 这 
些 表 包括 客户 信息 、 供 应 商 信息 和 产品 信息 。 但 客户 表 可 能 会 所 及 产 
品 表 的 东西 ， 因 为 客户 会 订购 产品 。 也 许 产 品 表 会 提 及 供应 商 表 中 的 
东西 ， 因 为 产品 由 供应 商 的 商品 制造 。 


让 我 们 来 看 一 个 真实 的 小 例子 : 由 大 学 存储 的 信息 详细 列 出 了 学 
生 要 上 哪些 谍 程 。 为 便于 管理 ， 例 子 中 只 会 有 儿 位 学 生 和 儿 门 课程 ， 
但 希望 你 能 明日 ， 同 一 原理 也 适用 于 大 得 多 的 数据 量 。 


首先 ， 让 我 们 看 看 数据 会 如 何 使 用 简单 的 一 张 表 方式 进行 存储 ， 
我 们 在 本 章 前 面部 分 一 直 使 用 这 一 方法 。 整 个 过 程 在 下 面 的 顶 图 中 显 
示 。 你 可 以 看 到 ， 数 据 库 中 有 10 行 和 5 列 ， 衡 量 这 个 数据 库 信息 量 的 一 
个 简单 方法 是 说 ， 数 据 库 中 有 10x5 = 50 个 数据 项 。 花 几 秒 钟 更 细致 地 
研究 下 面 的 表 。 有 什么 东西 让 你 对 信息 存储 的 方式 感到 恶心 吗 ? 比 


如 ， 你 能 看 到 任何 不 必要 的 数据 重复 吗 ? 你 能 想到 存储 相同 信息 更 有 
效 的 方式 吗 ? 


你 可 能 已 经 意识 到 ， 有 关 每 门 课程 的 大 量 信息 都 复制 给 了 参加 该 
门 课 程 的 所 有 学 生 。 比 如 ， 三 名 学 生 参 加 ARCH101 课 程 ， 而 关于 这 门 
课程 的 细节 信息 (包括 课程 名 、 讲 师 和 房间 号 ) 都 向 每 位 学 生 重 复 
了 。 存 储 这 些 信息 更 高 效 的 方法 是 使 用 两 张 表 一 张 表 存 储 学 生 们 上 
哪些 课 ， 另 一 张 表 存储 与 每 门 课程 有 关 的 细节 。 这 种 双 表 策略 在 下 面 
的 底 图 中 显示 。 


学 生 名 课程 号 课程 名 讲师 ”房间 号 
弗朗西斯 卡 ARCH101 考古 学 入 门 布莱克 教授 。” 610 
弗朗西斯 卡 ”HIST256 ”欧洲 历史 ”史密斯 教授 ”851 

苍 珊 MATH314 ”微分 方程 ”科比 教授 560 

埃 里 克 ” MATH314 ”微分 方程 ”科比 教授 。 560 

路 易 吉 ”HIST256 ”欧洲 历史 ”史密斯 教授 。” 851 

路 易 吉 MATH314 ”微分 方程 ”科比 教授 。 560 

比尔 ARCH101 考古 学 入 门 布莱克 教授 。 610 
比尔 HIST256 ”欧洲 历史 史密斯 教授 。 851 
罗斯 MATH314 ”微分 方程 ”科比 教授 560 
罗斯 ARCH101 考古 学 入 门 ” 布 菜 克 教授 。 610 


学 生 和 名 课程 号 
弗朗西斯 卡 ARCH101 
弗朗西斯 卡 ”HIST256 

苍 珊 MATH314 

埃 里 克 MATH314 

路 易 吉 HIST256 

路 易 吉 MATH314 


比尔 ARCH101 


比尔 HIST256 
罗斯 MATH314 
罗斯 ARCH101 


课程 号 课程 名 讲师 ”房间 号 
ARCH101 考古 学 入 门 布莱克 教授 。 610 
HIST256 ”欧洲 历史 ”史密斯 教授 ”851 
MATH314 ”微分 方程 “科比 教授 560 


顶 图 ， 学 生 课程 的 单 表 数据 库 
底 图 ， 用 两 张 表 更 高 效 地 存储 了 相同 数据 


我 们 马上 能 看 到 这 种 多 表 方 法 的 好 处 之 一 : 要 求 的 存储 总 量 减少 
了 。 新 方法 使 用 了 一 个 10 行 2 列 的 表 (10x2 = 20 个 项 ) 和 一 个 3 行 4 列 
的 表 (3x4 = 12 个 项 ) ， 总 共 是 32 个 项 。 相 反 ， 一 表 方 法 需要 50 个 项 
才能 存储 相同 多 的 信息 。 


节省 是 如 何 实现 的 呢 ? 它 来 目 于 对 重复 信息 的 消除 : 和 重复 每 位 

学 生 选 取 的 每 门 课程 的 名 称 、 讲 师 和 房间 号 不 同 ， 这 些 信息 只 同 每 门 

课程 列 出 了 一 次 。 尽 管 我 们 牺牲 了 一 些 东西 来 实现 这 一 点 : 现在 课程 

号 出 现在 两 个 地 方 ， 两 张 表 中 都 有 一 个 “课程 号 ” 列 。 我 们 用 大 量 重 复 

(课程 细节 ) 和 少量 重复 (课程 号 ) 进行 了 交换 。 总 体 而 言 ， 这 是 笔 

好 交易 。 这 个 小 例子 中 的 收获 并 不 大 ， 但 你 也 许 想 象 得 出 ， 如 采 有 成 
百 上 干 的 学 生 参 加 同一 门 课 ， 通 过 这 一 方法 将 节省 巨大 的 存储 空间 。 


多 表 方 法 还 有 另 一 个 巨大 优势 。 如 果 表 设计 无 误 ， 对 数据 库 的 变 
更 会 更 容易 。 比 如 ， 假 设 课程 MATH314 的 房间 号 从 560 变 为 440。 在 一 
表 方 法 中 ， 有 四 个 单独 的 行 需要 更 新 。 而 且 ， 正 如 我 们 之 前 讨论 的 ， 


这 四 次 更 新 需要 包 合 在 一 次 事务 中 ， 以 确保 数据 库 保持 一 致 。 但 在 多 
表 方 法 中 ， 只 需要 进行 一 次 更 改 一 更 新 课程 细节 表 中 一 项 即 可 。 


键 


在 这 里 有 一 点 值得 指出 ， 这 个 简单 的 学 生 课 程 例子 使 用 两 个 表 来 
代表 最 蜗 效 ， 真 实 的 数据 库 通常 会 和 许多 表 协 同 。 很 容易 想象 用 新 表 
扩展 学 生 课 程 的 例子 。 比 如 ， 可 能 有 一 张 包 售 每 位 学 生 细 市 的 表 ， 如 
学 生 号 、 电 话 号 以 及 家 性 住址 。 可 能 还 有 一 张 讲师 表 ， 列 出 讲师 的 电 
子 邮箱 地 址 、 办 公 地 点 和 办 公 时 间 。 每 个 表 都 被 设计 用 其 大 多 数列 存 
储 数 据 ， 以 便 让 这 些 数据 不 在 其 他 地 方 出 现 一 一 这 种 方法 的 思想 是 ， 
不 管 何 时 有 要求 某 个 特定 物体 的 细节， 我 们 都 能 在 相关 表 中 “和 查询” 这些 
细 廊 。 


在 数据 认 术 语 中 ， 表 中 用 于 “查询 ”细节 的 列 被 称 为 “ 键 ”。 比 如 ， 
想象 一 下 如 何 寻找 路 易 吉 的 历史 课 房 间 号 。 通 过 使 用 上 一 节 所 述 的 单 
表 方 法 ， 我 们 只 需 扫 描 表 中 的 行 ， 直 到 找到 路 易 吉 的 历史 课 ， 然 后 查 
询 房 间 号 列 ， 得 到 结果 851。 但 在 多 表 方 法 中 ， 我 们 最 开始 扫描 第 一 个 
表 ， 以 发 现 路 易 吉 的 历史 课 课 程 号 一 一 也 就 是 “HIST256”。 然后 我 们 
将 “HIST256” 作 为 其 他 表 的 键 使 用 : 通过 寻找 包含 课程 号 “HIST256” 的 
行 ， 查 询 这 门 课 程 的 细节 ， 然 后 在 该 行 中 寻找 房间 号 ( 即 851) 。 这 一 
过 程 在 下 图 中 显示 。 


课程 号 ”课程 名 讲师 


房间 号 


oO: : :Q@: 
(5 一 一 (51 ) 


键 查找 数据 ; 为 找到 路 易 吉 历史 课 的 房间 号 ， 我 们 首 移 要 找到 左 表 中 的 相关 课程 号 。 然 后 
这 个 值 HIST256" 会 被 用 作 另 一 张 表 的 键 。 因 为 课程 号 栏 以 字母 表 顺 序 排序 ， 我 们 能 很 快 找到 
正确 的 行 ， 然 后 获取 对 应 的 房间 号 (851) 。 


像 这 样 使 用 键 的 美妙 之 处 在 于 ， 数 据 库 能 以 超 高 效率 查询 键 。 这 
和 人 在 字典 中 查询 一 个 单词 类 似 。 想 想 你 会 如 何在 纸 质 词典 中 查 
找 “epistemology”( 认 识 论 ) 这 个 单词 。 上 自然 地 ， 你 不 会 从 第 一 页 开 
始 ， 扫 摘 每 个 项 以 查找 “epistemology”。 相 反 ， 你 很 快 就 能 通过 查看 页 
首 来 缩小 范围 ， 你 最 开始 会 大 块 翻 页 ， 然 后 会 慢 慢 放 慢 翻 页 的 幅度 ， 
未 渐 靠 近 你 的 目标 。 数 据 库 使 用 同样 的 技术 查找 键 ， 但 它们 要 比 人 高 
效 得 多 。 这 是 因为 数据 库 能 提前 计算 出 需要 翻 多 少 “ 块 "页 ， 并 能 记录 
每 块 开 始 和 结束 的 页 首 。 计 算 机 科学 中 有 一 种 用 于 快 键 查找 的 预计 算 
块 集合 被 称 为 B 树 (B-tree) 。B 树 是 另 一 种 支持 现代 数据 库 的 关键 精 
巧 思想 ， 但 不 笠 的 是 ， 对 B 树 进行 细致 讨论 会 离 题 太 远 。 


| 虚 表 把 戏 


我 们 准备 好 去 领会 多 表 数 据 库 背 后 精巧 的 主要 思想 了 。 虚 表 的 基 
础 思想 很 简单 : 尽管 所 有 的 数据 库 信息 都 能 存储 在 一 个 固定 大 小 的 表 
中 ， 数 据 库 能 在 需要 时 生成 新 的 临时 表 。 我 们 称 这 些 表 为 “ 虚 表 ”， 以 
强调 它们 不 会 被 存储 到 任何 地 方 的 事实 一 一 当 数 据 库 在 回答 对 数据 库 
的 查询 并 且 需 要 虚 表 时 束 会 创建 它们 ， 并 立即 删除 它们 。 


举 个 简单 例子 来 说 明 虚 表 把 戏 。 假 设 我 们 从 前 文 抵 图 描述 的 数据 
库 开始 ， 一 名 用 户 输 入 一 个 查询 ， 询 问 所 有 上 科比 教授 课 的 学 生 名 
字 。 数 据 库 处 理 这 一 查询 的 方法 有 许多 种 ; 我 们 会 审视 其 中 一 种 方 
法 。 第 一 步 是 创建 一 张 新 虚 表 ， 列 出 所 有 课程 的 学 生 和 讲师 。 这 可 以 
通过 合并 (join) 一 种 特殊 的 数据 库 操 作 一 两 个 数据 库 来 完成 。 
合并 的 基本 思想 是 将 一 个 表 中 的 每 一 行 和 男 一 张 表 对 应 行 结合 起 来 ， 
对 应 是 通过 同时 出 现在 两 张 表 中 的 键 栏 建立 起 来 的 。 比 如 ， 当 我 们 合 
并 第 前 文 确 图 两 张 表 时 ， 会 使 用 “课程 号 ”作为 键 ， 结 果 束 是 一 张 如 前 
文 顶 图 一 样 的 虚 表 一 一 每 个 学 生 都 和 第 二 张 表 中 相关 课程 的 所 有 细 市 
相 结 合 ， 人 们 可 以 使 用 “课程 号 ”作为 键 查找 这 些 细 方 。 当 然 ， 原始 查 
询 和 学 生 们 及 讲师 有 天， 因此 我 们 不 需要 其 他 栏 。 滁 运 的 是 ， 数 据 库 
包含 一 个 抛射 〈projection) 操作 ， 能 让 我 们 抛弃 不 感 兴趣 的 栏 。 因 此 
在 将 两 张 表 结合 的 合并 操作 后 ， 会 有 扫 妖 操 作 移 除 一 些 不 必要 的 栏 ， 
最 终 数据 库 得 到 了 下 面 的 虚 表 : 


学 生 名 讲师 
弗朗西斯 卡 布莱克 教授 
弗朗西斯 卡 史密斯 教授 

苏 珊 科比 教授 

埃 里 克 ”科比 教授 

路 易 吉 ”史密斯 教授 


路 易 吉 ”科比 教授 
比尔 ” ”布莱克 教授 
比尔 ” ”史密斯 教授 
罗斯 科比 教授 
罗斯 ”布莱克 教授 


接 下 来 ， 数 据 库 会 使 用 另 一 种 名 为 选取 (select) 的 重要 操作 。 
取 操 作 会 基于 一 些 标准 ， 从 一 张 表 中 选取 一 些 行 ， 并 抛弃 其 余 、 
生成 一 张 新 虚 表 。 在 这 个 例子 中 ， 我 们 在 寻找 上 科比 教授 谋 的 学 生 ， 
因此 我 们 要 进行 一 次 “选取 ”操作 ， 只 选择 讲师 为 “科比 教授 ”的 行 ， 得 


到 的 虚 表 如 下 : 


学 生 和 名 


苏 珊 “ 科 


讲师 
比 教 授 


埃 里 克 科比 教授 


比 教授 


路 易 吉 科比 教授 


罗斯 科 


比 教授 
比 教授 


查询 快 完成 了 。 现 在 我 们 需要 的 是 另 


师 ” 栏 ， 余 下 一 张 回答 原始 查询 的 虚 表 : 


学 生 名 
苏 珊 


埃 里 克 


路 易 吉 
罗斯 


一 次 抛射 操作 ， 热 痉 “ 讲 


我 认为 值得 在 此 添加 一 个 略 显 技术 性 的 提示 。 如 有 果 你 恰巧 对 数据 
库 查 询 语言 SQL 很 熟悉 ， 你 也 许 会 觉得 上 面 对 “ 选 取 ” 操 作 的 定义 相当 


奇怪 ， 因 为 SQL 中 的 “选取 ”命令 功能 比 只 选取 一 些 行 大 得 多 。 这 一 术 

语 来 目 ss ， 也 就 是 知名 的 天 系 
(relational algebra) ,其 中 的 “选取 ” 仅 用 于 选取 行 。 关 系 代数 还 包含 

并 ”和 “抛射 "操作 ， 这 两 项 操作 在 寻找 科比 教授 学 生 的 查询 中 用 到 过 。 


上 关系 所 库 


一 个 将 其 所 有 数据 都 存储 在 我 们 之 前 用 过 的 互联 表 中 的 数据 库 被 
称 为 关系 数据 库 。 关 系数 据 库 由 IBM 研 究 员 埃 德 加 : 科 德 〈E. F. Codd) 
在 其 于 1970 年 发 表 的 极 具 影 响 力 的 论文 《大 型 共 至 数据 库 数据 的 天 系 
模型 》 (A Relational Model of Data for Large Shared Data Banks) 中 提 
出 。 和 科学 上 许多 伟大 思想 一 样 ， a 
一 一 但 在 那 时 ， 它 们 代表 了 在 高 效 存储 和 处 理 信息 上 的 So 
果 显 示 ， 只 需 几 种 操作 (如 我 们 之 前 见 过 的 关系 代数 操作 “选取 ”、 
并 ”以 及 “ 抛 映 >) 就 足够 生成 虚 表 ， 回应 几乎 所 有 对 关系 数据 库 的 查 
询 。 因 此 ， 关 系数 据 库 能 将 数据 存储 在 为 高 效 性 而 构建 的 表 中 ， 使 用 
虚 表 把 戏 回应 似乎 需要 在 不 同 表 中 数据 的 查询 。 


这 也 是 关系 数据 库 被 用 于 文 持 大 多 数 电子 商务 活动 的 原因 。 当 你 
网 上 购物 时 ， 你 很 有 可 能 就 和 一 系列 天 系数 据 库 表 进 行 了 互动 ， 这 些 
表 存 储 了 与 产品 、 客户 和 单 次 购买 相关 的 信息 。 在 网 络 空间 中 ， 我 们 
无 时 无 刻 不 被 关系 数据 库 所 包围 ， 很 多 时 候 甚 至 没有 意识 到 它们 的 存 
i 


数据 库 的 人 性 面 


对 于 一 般 的 旁观 者 而 言 ， 数 据 库 也 许 是 本 书 中 最 不 令 人 激动 的 主 
题 。 要 为 数据 存储 感到 激动 很 难 。 但 在 背后 ， 让 数据 库 奏效 的 精巧 思 


想 却 是 另 一 回 事 。 建 立 在 能 在 任何 操作 中 途 出 错 的 硬件 上 ， 数 据 库 给 
予 我 们 期 望 在 线 银行 及 类 似 活动 能 拥有 的 高 效 性 和 坚实 可 靠 性 。 答 办 
事项 列表 把 戏 给 了 我 们 原子 态 事 务 ， 即 便 成 和 十 上 万 的 客户 同时 和 一 个 
数据 库 互 动 也 能 保持 一 致 性 。 这 种 并 发 性 的 深厚 程度 ， 与 虚 表 把 戏 提 
供 的 快速 查询 响应 能 力 一 道 ， 让 大 型 数据 库 高 效 化 。 待 办 事项 列表 把 
戏 还 保证 了 面临 出 错时 的 一 致 性 。 当 与 用 于 复制 数据 库 的 预备 提交 把 
戏 结合 时 ， 我 们 整 获得 了 牢靠 的 一 致 性 以 及 数据 的 持久 性 。 


数据 库 对 不 可 靠 组 件 的 英勇 胜利 一 一 计算 机 科学 家 称 之 为 “ 容 
错 ” (fault-tolerance) 是 许多 研究 人 员 在 过 去 几 十 年 间 的 成 果 。 但 
其 中 最 重要 的 贡献 者 是 吉姆 .格雷 (Jim Gray) 。 格 雷 是 位 超级 计算 机 
科学 家 ， 撰 写 了 有 关 事 务 处 理 的 数据 。[ 这 本 书 名 为 《事务 处 理 : 
概念 与 技术 》 (Tansaction Processing: Concepts and 
Techniques) ， 该 书 于 1992 年 首次 出 版 。] 令 人 遗憾 的 是 ， 他 的 职 
业 生 涯 很 早 就 结束 了 : 2007 年 的 一 天 ， 他 驾驶 自己 的 游艇 由 金门 大 桥 
出 旧金山 湾 ， 进 行 一 次 计划 好 的 白昼 旅行 ， 谁 备 前 往 旧 金山 湾 附 近 公 
海中 的 一 些 岛屿 。 自 此 以 后 ， 格 雷 和 他 的 船 音信 全 无 。 这 个 悲剧 故事 
中 有 一 处 温 暧 人 心 的 转折 ， 格 雷 在 数据 库 社 区 的 许多 朋友 使 用 格雷 的 
工具 尝试 朱 救 格雷 ， 旧 金山 附近 海域 最 新 得 到 的 卫星 照片 被 上 传 到 一 
个 数据 库 中 ， 以 便 让 朋友 们 和 同事 们 搜寻 这 位 失踪 数据 库 先 锋 的 线 
索 。 不 幸 的 是 ， 这 次 搜寻 并 不 成 功 ， 计 算 机 科学 世界 丧失 了 一 位 领军 
人 物 。 


为 了 证 明 你 错 得 多 厉害 ， 你 的 假设 是 多 么 没 
有 根据 ， 我 把 证 书 摆 在 你 面前 .……. 看 看 它 ! 
你 可 以 拿 在 手 里 看 ， 它 绝 非 伪造 。 


St 


查尔斯 -狄更斯 ，《 双 城 记 》 


在 本 书 的 所 有 思想 中 ， 最 矛盾 的 也 许 要 数 “ 数 字 签 名 ” (digital 
signature) 概念 了 。 从 字面 来 看 ， 单 词 数 字 化 (digital) 数字 化 意味 着 
其 “由 数字 字符 串 组 成 。 因此 ， 根 据 定义 ， 任 何 数 字 化 的 东西 都 能 被 
找 贝 ， 要 做 到 这 一 点 ， 只 要 每 次 拷贝 一 下 数字 束 行 。 如 有 果 你 能 读 取 数 
字 ， 束 能 拷贝 数字 ! 另 一 方面 , “签名 ”的 全 部 意义 在 于 能 被 恋 取 ， 但 
不 能 被 除 作者 外 的 任何 人 拷贝 (也 就 是 伪造 。 怎 么 才 有 可 能 创造 一 
个 数字 化 的 ， 但 又 不 能 被 找 贝 的 签名 呢 ? 我 们 将 在 本 章 为 这 一 有 趣 的 
迟 论 发 现 解决 方案 。 


数字 签名 真正 的 用 途 有 哪些 ? 


数字 签名 的 用 途 有 哪些 ? 问 这 个 问题 也 许 显 得 多 余 。 你 也 许 会 想 ， 我 
们 能 在 纸 质 签 名 用 到 的 地 方 使 用 数字 签名 : 签署 文 票 或 其 他 法 律 文 
件 ， 如 出 租 一 间 公 寓 。 但 如 果 你 思考 一 阵子 ， 你 会 意识 到 这 不 对 。 当 
你 进行 在 线 文 付 时 ， 不 管 是 用 信用 卡 还 是 通过 在 线 银 行 系统 ， 你 会 提 


供 任何 种 类 的 签名 吗 ? 没有 。 基 本 上 ， 在 线 信用 卡 支付 并 不 要 求 答 

名 。 在 线 银行 系统 略 有 不 同 ， 因 为 它们 会 要 求 你 用 密码 登录 ， 以 帮助 

验证 你 的 身份 。 但 如 果 你 稍 后 于 在 线 银行 对 话 期 间 进行 支付 ， 也 不 需 
要 你 提供 任何 种 类 的 签名 。 


White files from the Internet can be useful this file type can potentially harm 
your computer. Only run software from publishers you trust. What's the risk? 


The pubiisher could not be verified. Are you sure you want to run this 
software? 


Name: setup.exe 


This fle does not have a valid digital signature that verifies its publisher. You “| 
should only run software from publishers you trust. How can Idecide what 
software to run? 


计算 机 会 自动 检查 数字 签名 。 
顶 图 : 当 我 试图 下 载 并 运行 一 个 拥有 有 效 数字 签名 的 程序 时 ， 网 络 浏览 器 显示 的 消息 。 
让 图: 当 数 字 签 名 失效 或 缺失 时 ， 网 络 浏览 器 显示 的 消息 。 


那么 ， 数 字 签 名 在 实际 生活 中 有 哪些 用 途 呢 ? 答案 可 能 和 你 一 开 
始 的 想法 相反 : 与 你 签 普 发 送 给 其 他 人 的 材料 不 同 ， 基 本 上 是 其 他 人 
先 签署 材 料 再 发 送 给 你 。 你 很 有 可 能 并 未 意识 到 这 一 点 的 原因 是 ， 数 
字 签 名 由 计算 机 目 动 验证 。 比 如 ， 不 管 你 何 时 想 下 载 并 运行 程序 ， 网 
络 浏 贤 郑 都 会 检查 程序 是 否 有 数字 签名 以 及 数字 签名 是 否 有 效 。 然 后 
浏 贤 右 再 显示 一 个 合适 的 警告 ， 如 上 图 所 示 。 


如 你 所 见 ， 这 里 有 两 种 可 能 性 。 如 果 软 件 拥 有 有 效 签 名 (如 上 页 
顶 图 ) ， 计 算 机 能 完全 肯定 地 告诉 你 编写 该 软件 的 公司 名 。 当 然 ， 这 
并 不 能 保证 软件 安全 ， 但 至 少 你 能 基于 对 该 公司 的 信任 程度 做 出 充分 
了 解 后 再 做 决定 。 反 之 ， 如 采 签 名 失效 或 缺失 (如 上 页 说 图 ) ， 你 绝 
不 会 得 到 软件 来 目 哪 里 的 保证 。 即 便 你 认为 自己 下 载 的 软件 来 自 一 个 
信誉 民 好 的 公司 ， 也 有 可 能 黑客 用 一 些 恶 意 软 件 蔡 换 了 真正 的 软件 。 
软件 也 有 可 能 由 业余 人 士 编写 ， 他 们 没有 时 间或 动力 去 创造 一 个 有 效 
的 数字 签名 。 在 这 些 情况 下 ， 是 否 安 多 取 决 于 用 户 是 人 否 信 任 软 件 。 


尽管 软件 签名 是 数 字 签 名 最 明显 的 应 用 ， 但 这 绝 不 是 仅 有 的 一 种 
应 用 。 事 实 上 ， 计 算 机 接收 和 验证 数字 签名 的 频率 非常 多 ， 因 为 一 些 
经 党 使 用 的 互联 网 协议 也 使 用 数字 签名 ， 验 证 与 你 进行 交互 的 计算 机 
的 身份 。 比 如 ， 网 络 地 址 以 “https" 开 头 的 安全 服务 器 在 建立 一 个 安全 
对 话 前 ， 通 常会 向 你 的 计算 机 发 送 一 个 数字 签名 证 书 。 数 子 签 名 还 应 
用 于 验证 许多 软件 组 件 的 真实 性 ， 比 如 浏 蜗 右 插件 。 你 在 浏览 网 页 时 
很 有 可 能 已 经 见 过 这 样 的 警告 消 筷 。 


你 也 可 能 遇 到 男 外 一 种 网 络 签名 : 一 些 网 站 会 要 求 输入 名 字 ， 作 
为 网 络 表 格 的 签名 。 比 如 ， 当 我 发 送 为 学 生 写 的 推荐 信 有 时 ， 有 时 我 必 
须 这 么 做 。 这 并 不 是 计算 机 科学 家 所 指 的 数字 签名 ! 很 显然 ,伪造 这 
种 输入 的 签名 盈 不 费力 ， 任 何 知道 你 名 字 的 人 都 能 伪造 。 在 本 草 ， 我 
们 将 学 习 如 何 创造 一 个 不 能 被 仿造 的 数字 签名 。 


我 们 对 数字 签名 的 解释 会 一 步 步 实 现 ， 先 从 纸 质 签名 的 熟悉 场景 
开始 ， 再 慢 慢 转 癌 精巧 的 数字 签名 。 下 面 正式 开始 ， 让 我 们 回 到 一 个 
没有 计算 机 的 世界 。 在 那个 世界 里 ， 唯 一 确认 文件 可 靠 的 方式 就 是 纸 
质 手 写 签名 。 注 意 ， 在 这 种 场景 下 ， 一 份 已 经 签署 的 文件 不 能 单独 验 
证 。 比 如 ,假设 你 找到 的 一 张 纸 上 写 着 “我 承诺 癌 弗 表 索 瓦 丝 支付 100 
美元 。 签 名 ，Ravi” 如 下 图 所 示 。 你 如 何 才能 验证 拉 维 (Ravi) 真 
的 签署 了 这 份 文件 呢 ? 管 案 是 你 需要 一 些 受信 签名 库 ， 你 可 以 在 这 个 
签名 库 中 核实 拉 维 签名 的 真实 性 。 在 现实 世界 中 ， 银 行 、 政 府 等 机 构 
会 扮演 这 一 角色 一 一 它们 的 确 会 保留 存储 有 客户 签名 的 文件 ， 这 些 文 
件 在 必要 时 可 进行 物理 核实 。 在 我 们 的 假想 场景 中 ， 让 我 们 假设 有 一 
个 名 为 “ 纸 质 签名 银行 ” (paper signature bank) 的 受信 机 构 保 留 每 个 人 
的 签名 文件 。 下 图 就 是 一 个 纸 质 签名 银行 的 概要 图 例 。 


pr 和 Fran 


一 个 用 文件 存储 其 客户 身份 及 手写 签名 的 银行 。 


Paper 
Signature Bank 


Ravi ee 
Takeshi ak esh 


Francoise NaNcotses 


一 份 带 有 一 个 手写 签名 的 纸 质 文件 。 


要 验证 拉 维 在 承诺 支付 弗 朗 索 瓦 丝 的 文件 上 的 签名 ， 我 们 只 需 前 
往 纸 质 签名 银行 ， 要求 查看 拉 维 的 签名 即 可 。 很 显然 ， 我 们 在 这 里 做 
出 了 两 个 重要 假设 。 首 先 ， 我 们 假设 能 信任 这 家 银行 。 理 论 上 ， 该 银 
行 的 员工 可 能 将 拉 维 的 签名 换 成 假冒 着 的 签名 ， 但 我 们 在 这 里 要 忽略 
这 种 可 能 性 。 其 次 ， 我 们 假设 假冒 者 不 可 能 伪造 拉 维 的 签名。 每 个 人 
都 知道 ， 这 一 假设 错 得 离谱 : 熟练 的 造假 者 能 轻易 伪造 位 名 ， 即 便 是 
业余 人 士 ， 也 能 制作 合理 的 相似 签名 。 不 管 怎 样 ， 我 们 需要 签名 不 可 
仿造 这 一 假设 一 一 没有 它 ， 纸 质 签名 殊 会 又 无 用 处 。 我 们 将 在 后 面 知 
道 ， 为 何 数字 签名 基本 上 不 可 能 伪造 。 这 也 是 数字 签名 对 纸 质 俭 名 的 
一 大 优势 。 


用 挂 锁 人 等 名 


我 们 迈 癌 数字 签名 的 第 一 步 是 完全 抛弃 纸 质 签名 ， 采 用 一 种 依赖 
挂 锁 、 钥 是 和 已 锁 箱 子 的 新 方法 验证 文件 。 新 机 制 的 每 位 参与 者 (在 
这 个 例子 中 就 是 拉 维 <Ravi>、 勇 <Takeshi> 和 弗 表 索 瓦 丝 <Francoise>) 
都 有 大 量 挂 锁 供 应 。 每 位 参与 者 拥有 的 挂 锁 都 一 样 ， 因 此 拉 维 的 挂 锁 
都 一 样 ， 这 点 很 关键。 另外 ， 每 位 参与 者 的 挂 锁 都 必须 是 独 有 的 : 其 
他 人 不 能 制作 或 获得 拉 维 的 挂 锁 。 最 后 ， 本 章 所 有 挂 锁 都 具有 一 个 相 
当 不 同 寻 常 的 特性 : 它们 装备 有 生物 传感器 ， 以 确保 只 有 它们 的 所 有 
者 能 上 锁 。 如 有 果 弗 妆 索 瓦 丝 发 现 有 一 把 拉 维 的 挂 锁 没 锁 上 ， 她 不 能 
拉 维 的 挂 锁 去 锁 任何 东西 。 当 然 ， 拉 维 还 会 得 到 打开 自己 挂 锁 的 钥 
是 。 因 为 拉 维 所 有 的 挂 锁 都 一 样 ， 所 有 钥匙 也 都 一 样 。 到 目前 为 止 描 
述 的 场景 显示 在 下 页 图 中 。 我 们 将 这 一 最 初 设置 称 为 “实体 挂 锁 把 
戏 ”(physical padlock trick) 。 


现在 ， 让 我 们 和 之 前 一 样 假设 ， 拉 维 欠 弗 衣 索 瓦 丝 100 美 元 ， 而 带 
朗 索 瓦 丝 想 用 一 种 可 验证 的 方法 记录 这 一 人 信息。 换言之， 弗 表 索 瓦 丝 
想 要 和 上 图 一 样 的 文件 ， 却 又 不 必 依赖 于 手写 笔迹 。 下 面 惑 是 这 一 把 
戏 的 运作 方式 。 拉 维 制作 一 份 文件 ， 上 面 显 示 “ 拉 维 承 诡 回 弗 朗 索 瓦 丝 
文 付 100 美 元 ”， 但 并 不 用 在 上 面 等 名 。 拉 维 会 制作 一 份 该 文件 的 拷 
贝 ， 并 将 文件 放 在 一 个 加 锁 的 箱子 内 〈 加 锁 的 箱子 非常 坚固 ， 能 用 挂 
锁 锁 上 ) 。 最 后 ， 拉 维 用 一 个 挂 锁 锁 上 箱子 ， 并 把 锁 上 的 箱子 给 弗 朗 
索 瓦 丝 。 完 整 包 于 如 下 图 所 示 。 准 确 地 说 ， 上 锁 的 箱子 就 是 文件 的 签 
名 。 注 意 ， 这 对 弗 衣 索 瓦 丝 或 一 些 受 信和 目击 者 来 说 是 个 好 主意 ， 能 观 
看 等 名 的 创建 过 程 。 否 则 ， 拉 维 吏 可 以 通过 在 箱 内 放 上 一 份 不 同 的 文 
件 来 作 束 。《〈 可 以 论证 的 是 ， 如 果 加 锁 的 箱子 透明 ， 这 一 机 制 的 效果 
会 更 好 。 毕 竞 ， 数 字 签 名 提供 可 靠 性 ， 而 非 隐 秘 性 。 不 过 ， 透 明 锁 箱 
有 点 不 符 直 觉 ， 因 此 我 们 不 会 妃 求 这 一 可 能 性 。) 


在 实物 挂 锁 把 戏 中 ， 每 位 参与 者 都 能 得 到 独 有 的 相同 挂 锁 和 钥匙 。 


也 许 你 已 经 知道 了 弗 朗 索 瓦 丝 验证 拉 维 文件 可 靠 性 的 方法 了 。 如 
林 任 何人 一 一 甚至 是 拉 维 目 己 一 一 试图 否认 这 份 文 件 的 真实 性 ， 弗 朋 
索 瓦 丝 都 能 说 “好 ， 拉 维 ， 请 借 我 一 把 你 的 钥匙 。 现 在 我 要 用 你 的 钥 三 
来 打开 这 个 锁 箱 。” 在 拉 维 和 其 他 目击 者 〈 甚 至 有 可 能 是 法 院 法 官 ) 的 
见证 下 ， 弗 表 索 瓦 丝 打 开 挂 锁 ， 展 示 锁 箱 里 的 内 容 。 然 后 弗 朗 索 瓦 丝 
继续 说 :“ 拉 维 ， 因 为 你 是 唯一 接触 能 用 这 把 钥 趟 打开 的 锁 的 人 ， 其 他 
人 不 可 能 对 锁 箱 内 容 负 责 。 因 此 ， 是 你 ， 也 只 有 你 能 写 这 张 欠条 ， 并 
把 它 放 到 锁 箱 内 。 你 确实 欠 我 100 美 元 ! ” 


尽管 这 一 开始 听 起 来 很 复 洒 ， 但 这 一 认证 方法 既 实用 义 强大 。 然 
而 ， 这 种 方法 确实 有 些 缺 点 。 其 主要 问题 是 ， 它 要 求 拉 维 的 配合 : 在 
弗 明 索 瓦 丝 能 证 明 任 何事 情 之 前 ， 她 必须 说 服 拉 维 借 她 钥匙 。 但 拉 维 
可 以 拒绝 ， 或 者 更 糟糕 ， 假 装 合作 却 借 给 弗 朗 索 瓦 丝 一 把 不 同 的 钥 吓 
一 一 一 把 打 不 开 拉 维 锁 的 钥匙 。 然 后 ， 当 弗 妆 索 瓦 丝 打 不 开锁 箱 时 ， 
拉 维 束 能 说 : “看 ， 这 不 是 我 的 挂 锁 ， 伪 造 者 可 能 制作 了 一 份 文件 ， 并 
在 我 不 知情 的 情况 下 把 它 放 入 锁 箱 中 。” 


拉 维 承诺 向 弗 朗 索 瓦 丝 支 
付 100 美元 


为 运用 实物 挂 锁 把 戏 制 作 一 个 可 验证 签名 ， 拉 维 将 一 份 文件 拷贝 放 在 锁 箱 内 ， 并 用 一 把 他 的 
挂 锁 锁 上 。 


为 防止 拉 维 使 用 这 种 欺 驴 方法 ， 我 们 仍 需 要 依靠 一 个 受信 第 三 
方 ， 如 银行 。 和 前 文 的 纸 质 签名 银行 相反 ， 新 银行 会 存储 钥匙 。 
此 ， 参 与 者 不 征 给 银行 一 份 签名 ， 而 是 给 银行 一 把 能 打开 目 己 挂 锁 的 
实物 钥 十 。 下 图 显示 了 实物 钥匙 银行 。 


这 个 银行 是 这 一 谜 题 的 最 后 部 件 ， 完 整 了 实物 挂 锁 把 戏 的 解释 。 
如 条 弗 明 索 瓦 丝 需要 证 明 拉 维 写 了 从 条 ， 她 只 要 和 一 些 目击 证 人 把 锁 


箱 市 到 银行 ， 在 银行 用 拉 维 的 钥 古 打开 箱子 即 可 。 挂 锁 能 打开 殉 证 明 
只 有 拉 维 能 对 箱 中 内 容 负 责 ， 而 箱 中 正好 是 那 份 弗 朗 索 瓦 丝 能 试图 验 
证 的 文件 。 


用 乘法 挂 锁 等 名 


结果 证 明 ， 我 们 创建 的 钥匙 一 挂 锁 架构 正 是 数字 签名 所 需 的 方 
法 。 不 过 ， 很 明显 ， 我 们 不 能 在 必须 进行 电子 转换 的 签名 上 使 用 实物 
挂 锁 和 实物 钥匙 。 因 此 ， 下 一 步 丈 是 用 类 似 的 能 数字 化 的 数学 对 象 取 
代 挂 锁 和 钥匙 。 具 体 来 说 ， 挂 锁 和 钥匙 将 用 数字 代表 ， 上 锁 或 开锁 动 
作 将 由 钟 算 乘法 (multiplication in clock arithmetic) 代表 。 如 果 你 对 钟 
算 不 是 很 熟悉 ， 请 查看 第 四 章 的 解释 。 
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Takeshi 


Francoise 


自 对 应 的 挂 锁 。 注 意 每 把 钥匙 都 是 不 同 的 。 


实物 钥匙 银行 有 很 多 钥匙 ， 用 于 


So 


为 得 到 不 能 伪造 的 数字 签名 ， 计 算 机 使 用 的 钟 大 小 非常 大 一 钟 
大 小 长 度 基本 在 数 十 或 数 百 位 数 。 不 过 ， 在 接 下 来 的 描述 中 ， 我 们 将 
使 用 的 钟 大 小 会 非常 小 ， 基 本 不 会 在 现实 中 运用 ， 以 确保 计算 能 简单 
进行 。 


这 一 部 分 的 所 有 例子 都 使 用 11 作 为 钟 大 小 。 因 为 我 们 会 多 次 用 这 
个 钟 大 小 将 数字 乘 起 来 。 我 在 下 面 给 出 了 一 张 表 ， 列 出 了 将 小 于 11 的 
数 相 乘 得 到 的 所 有 值 。 比 如 ， 让 我 们 来 手动 计算 7x5， 不 用 那 张 表 。 
我 们 先 用 普通 算术 计算 答案 : 7 x 5 = 35。 然 后 ， 我 们 保留 用 结果 除 以 
11 后 的 余数 。35 除 11 得 3 ( 即 33) ， 余 2。 因 此 ， 最 终结 果 是 2。 从 表 上 
看 ， 第 7 行 第 5 列 的 项 的 确 是 2。 (你 也 能 用 第 7 列 第 5 行 一 一 顺序 并 不 重 
要 ， 你 可 以 自行 查证 。) 你 可 以 自行 党 试 男 一 对 乘法 例子 ， 以 确保 自 
己 理解 。 


在 继续 之 前 ， 我 们 需要 略微 变化 一 下 我 们 壬 试 要 解决 的 问题 。 在 
之 前 ， 我 们 一 直 在 寻找 让 拉 维 “签署 ”一 条 给 弗 朗 索 瓦 丝 的 消息 (实际 
上 是 一 张 欠条 ) 的 方法 。 这 条 消息 用 日 常 英语 写 就 。 但 从 现在 开始 ， 
只 和 数字 打交道 要 方便 得 多 。 因 此 ， 我 们 必须 承认 ， 计 算 机 将 消 忌 翻 
译 成 一 个 数 子 字符 串 让 拉 维 签署 很 容易 。 之 后 ， 如 琳 有 人 需要 验证 拉 
维 对 这 个 数字 字符 串 的 签名 时 ， 计 算 机 逆转 翻译 并 把 数字 转化 成 英语 
也 很 简单 。 在 讨论 校 验 和 及 更 短 符号 把 戏 时 ， 我 们 遇 到 了 同样 的 问 
题 。 如 采 你 愿意 更 细致 地 理解 这 一 问题 ， 请 回顾 更 短 符 号 把 戏 的 讨论 
一 一 这 张 匈 给 出 了 一 个 在 字母 和 数字 之 间 翻 译 的 稍 单 、 详 尽 的 例子 。 


1 4 5 6 7 9 10 

1 1 + 6 9 10 
2 e 810 1 3 7 9 
3| 3 1] 4 7 10 9 8 
4| 4 3 二 声名 1 了 37 
9 5 9 党 2 7 1 6 
6| 6 1 2 8 3 9 410 5 
| 83830 &€ 2 9 5 1 BB a 
8| 8 5 210 7 4 1 9 6 3 
和 | 号 
IO0OIO98765 汉 2332 1 

钟 大 小 为 1 的 乘法 表 。 


因此 ， 拉 维 不 会 签署 一 条 用 英语 写成 的 消息 ， 而 是 必须 签署 一 个 
数字 字符 串 ， 如 “494138167543......83271696129149”。 不 过 ， 为 简单 
起 见 ， 我 们 一 开始 会 假设 签署 的 消息 非常 之 短 : 事实 上 ， 拉 维 的 消息 
将 由 “8” 或 “5 这样 的 单个 数字 组 成 。 不 要 担心 : 我 们 最 终 将 学 会 签署 
长 度 更 合乎 情理 的 消息 的 方法 。 至 于 现在 ， 最 好 还 是 坚持 用 单个 数字 
消息 。 


做 好 了 这 些 准 备 之 后 ， 我 们 融 准 备 好 理解 “乘法 挂 锁 把 戏 ? 的 核心 
了 。 和 实物 挂 锁 把 戏 一 样 ， 拉 维 会 需要 一 把 挂 锁 和 一 把 打开 挂 锁 的 钥 


坏 。 获 得 挂 锁 非常 容易 ， 拉 维 首 先 选择 一 个 钟 大 小 ， 然 后 选择 比 钟 大 
小 小 的 任意 数 作为 数字 “ 挂 锁 ?”。 (实际 上 ， 一 些 数 比 其 他 数 效 果 更 
好 ， 但 谈 这 些 细节 会 离 题 太 远 。) 为 让 例子 具体 化 ， 假 设 拉 维 选择 11 
作为 钟 大 小 ， 选 择 6 作 为 挂 锁 。 


拉 维 承诺 向 弗 朗 索 瓦 丝 
支付 100 美 元 
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11 乘 6， 钟 大 小 为 11 


如 何 制 作 一 个 数字 签名 ， 用 一 把 “ 挂 锁 ”“ 锁 住 "一 条 数字 消息 。 图 中 最 上 面 一 行 显示 了 如 何 用 
一 把 实物 挂 锁 在 一 个 箱子 中 锁 住 一 条 消息 。 图 中 最 下 面 一 行 显示 了 类 似 的 数学 操作 ， 里 面 的 
消息 是 个 数字 (5) ， 挂 锁 是 另 一 个 数字 (6) ， 上 锁 过 程 是 已 知 钟 大 小 的 乘法 。 最 终结 果 
(8) 就 是 消息 的 数字 签名 。 


现在 ， 拉 维 如 何 用 挂 锁 把 消息 <* 锁 ”入 锁 箱 呢 ? 上 听 起 来 也 许 很 奇 
怪 ， 拉 维 将 用 乘法 做 到 这 一 点 : 拉 维 的 * 上 锁 ? 消 息 将 由 挂 锁 和 消息 相 
乘 〈 钟 大 小 为 11) 。 记 住 ， 我 们 现在 在 处 理 一 条 由 单个 数字 组 成 的 消 
思 。 因 此 ， 假 设 拉 维 的 消息 是 “5”。 那 么 他 的 * 上 锁 ? 消 ww x 5, 通 
过 钟 算 得 到 结果 为 8。 (你 可 以 用 前 页 的 乘法 表 进 行 双重 核对 ) 这 一 过 
程 在 上 图 中 得 到 了 总 结 。 最 终结 果 “8” 就 是 拉 维 给 原始 消息 的 数字 和 
名。 


拉 维 承诺 向 弗 朗 索 
元 丝 支 付 100 美 元 


挂 锁 
一 为 一 一 
7 11 乘 2， 钟 大 小 为 11 3 
3 


oo 
11 乘 2， 钟 大 小 为 11 


2 11 乘 6， 钟 大 小 为 11 11 乘 2， 钟 大 小 为 11 


如 何 使 用 数字 挂 锁 和 对 应 数字 钥匙 < 上 锁 ” 并 在 随后 “解锁 ”一 条 消息 。 图 中 最 上 面 一 行 显 示 了 
实物 版 上 锁 和 解锁 。 图 中 最 下 面 三 行 显示 了 使 用 乘法 给 消息 进行 数字 上 锁 和 解锁 的 例子 。 注 
意 ， 上 锁 过 程 得 到 了 一 个 数字 签名 ， 而 解锁 过 程 则 得 到 了 一 条 消息 。 如 果 解 锁 消 息 与 原始 消 
匹配 ， 数 字 签 名 就 得 到 了 验证 ， 原 始 消息 为 真 。 


Er 训 


当 伏 ， 如 果 我 们 随后 不 能 运用 某 种 数学 “ 钥 古 ? 解 开 放 具 ， 这 种 数 
学 “ 挂 锁 ? 也 会 晕 无 用 处 。 幸 运 的 是 ， 有 一 种 解锁 消 妃 的 簿 单方 法 。 这 
种 方法 是 再 次 使 用 乘法 《和 之 前 一 样 应 用 钟 大 小 ) ， 但 这 次 我 们 会 乘 
以 一 个 不 同 的 数 一 一 这 个 数字 经 过 特别 选取 ， 能 解 开 之 前 选取 的 挂 锁 
六 


让 我 们 继续 使 用 这 个 具体 例子 ， 拉 维 仍然 用 11 作 为 钟 大 小 ， 用 6 作 
为 挂 锁 数字 。 结 果 显 示 ， 其 对 应 的 钥匙 是 2。 我 们 怎么 知道 ? 稍 后 再 回 
答 这 个 重要 问题 。 现 在 ， 让 我 们 继续 进行 更 容易 的 任务 ， 在 别人 告诉 
我 们 钥匙 的 数值 时 验证 钥匙 奏效 。 之 前 提 到 过 ， 我 们 通过 将 上 锁 消 息 
和 钥 古 相 乘 束 能 解 开 上 锁 消 轧 。 我 们 已 经 在 上 图 中 见 过 ， 当 拉 维 将 消 
息 5 用 挂 锁 6 锁 上 时 ， 他 得 到 了 上 和 锁 消 息 《或 数字 签名 ) 8。 要 解锁 上 锁 
消 刀 ， 我 们 将 8 用 钟 算 乘 以 钥 古 2， 得 到 结果 5。 殉 像 魔术 一 样 ， 我 们 得 
到 了 原始 消 轧 51! 整个 过 程 如 上 图 所 示 ， 你 还 能 看 到 其 他 两 个 例子 ， 消 


息 <3” 被 锁 上 后 变 成 *7"， 用 钥匙 办 开始 重 新 变 成 <3”。 类 似 的 ，“2* 被 锁 
上 后 变 成 <1”， 但 钥匙 将 其 转化 回 <2”。 


上 图 还 解释 了 该 如 何 验 证 数 子 签名。 你 只 需 用 和 釜 效 者 的 乘法 钥匙 
解 合 签名 即 可 。 如 果 解 锁 消 晨 和 原始 消 居 匹配 ， 签 名 就 古 真 实 的 。 否 
则 ， 签 名 就 肯定 是 伪造 的 。 这 一 验证 过 程 在 下 页 图 中 进行 了 更 细致 的 
展示 。 在 这 张 表 中 ， 我 们 继续 使 用 11 作 为 钟 大 小 ， 但 为 显示 我 们 目前 
使 用 的 数字 挂 锁 和 钥 古 没有 特殊 之 处 ， 我 们 在 这 里 使 用 了 多 个 不 同 的 
值 。 竺 别 是 ， 挂 锁 值 为 9， 而 相应 钥匙 的 值 为 5。 表 中 第 一 项 的 消 县 
是 “4”， 符 名 是 “3”。 签名 解 开 后 结果 为 “4”， 与 原 消 居 匹 配 ， 因 此 签名 
为 本 人 所 写 。 表 中 第 二 行列 举 了 一 个 相似 的 例子 ， 消 息 为 “8”， 签 名 
为 “6”。 但 表 的 最 后 一 行 显示 了 签名 系 伪造 时 的 情况 。 表 中 第 四 项 的 消 
思 还 是 <8"”， 但 签名 却 是 “7”。 这 个 签名 解锁 后 是 “2”， 与 原 消 轧 不 匹 
配 。 因 此 ， 签 名 系 伪造 。 


数字 签名 (对 于 
真 签名 ， 让 消息 
和 挂 锁 值 9 术 
乘 。 对 于 假 答 
名 ， 选 择 一 个 随 
[ 数 。) 


解锁 签名 (要 解 
锁 签 名 ， 和 钥匙 
值 5 相 乘 。 


如 何 侦 测 一 个 伪造 的 数字 和 俭 名。 这些 例 子 使 用 的 排 锁 值 为 9， 钥 是 值 为 5。 前 两 个 签名 为 真 ， 


如 条 你 回想 实物 钥 古 和 挂 锁 的 例子 ， 你 应 该 会 记得 挂 锁 有 防止 其 
他 人 使 用 的 生物 传 感 絮 一 一 否则 伪造 者 殊 能 用 拉 维 的 挂 锁 将 任意 消息 
所 在 箱子 中 ， 进 而 伪造 这 条 消 妃 的 答 名 。 同 样 的 道理 也 适用 于 数字 挂 
锁 。 拉 维 必 须 保 持 他 的 挂 锁 号 不 为 人 知 。 每 次 他 签 蓝 一 条 消 轧 ， 拉 维 
都 要 同时 展示 消息 和 签名 ， 但 并 非 用 于 制作 签名 的 挂 锁 数 。 


拉 维 选择 的 钟 大 小 和 数字 钥匙 呢 ? 这 些 也 必须 保密 吗 ? 不 是 。 拉 
维 可 以 公开 宜 布 目 己 选 择 的 钟 大 小 和 钥匙 值 ， 有 可 能 会 通过 网 站 发 布 
它们 ， 而 无 须 为 验证 签名 的 机 制 妥 协 。 如 采 拉 维 真 的 发 布 了 目 己 的 钟 
大 小 和 钥 古 值 ， 任 何人 都 能 获取 这 些 数字 并 验证 他 的 签名 。 乍 一 看 ， 
这 种 方法 似乎 非常 方便 一 一 但 还 是 有 些 重要 的 细微 之 处 需要 强调 。 


数字 钥匙 银行 


Ravi 


Takeshi 


Francoise 


数字 钥匙 银行 。 该 银行 的 作用 并 非 为 数字 钥匙 和 钟 大 小 保密 。 相 反 ， 银 行 是 获取 与 任何 个 人 
相关 的 真正 钥匙 和 钟 大 小 的 受信 权威 。 银 行 可 以 自由 地 向 任何 有 要 求 的 人 展示 这 些 信息 。 


| 数 子 钥 二 银行 


比如 ， 这 个 方法 消除 了 对 受信 和 银行 的 需求 吗 ? 纸 质 签名 技术 和 实物 
挂 锁 一 钥 古 技术 都 需要 受信 银行 。 并 非 如 此 : 仍然 需要 一 个 像 银行 这 


样 的 受信 第 三 方 。 没 有 受信 第 三 方 ， 拉 维 束 能 分 发 一 个 假 钥匙 值 ， 让 
他 的 签名 失效 。 更 糟 的 是 ， 拉 维 的 敌人 们 可 以 制造 一 个 新 的 数字 挂 锁 
和 相对 应 的 数字 钥匙 ， 并 在 一 个 网 站 上 宣称 这 就 是 拉 维 的 钥匙 ， 然 后 
用 他 们 新 伪造 的 数字 挂 锁 签 奢 任 何 他 们 想 要 的 消息 。 任 何 相信 这 上 华新 
钥 古 属于 拉 维 的 人 都 会 相信 ， 天 人 的 消息 是 拉 维 签署 的 消息 。 因 此 ， 
银行 的 角色 并 不 是 为 拉 维 的 钥 古 和 钟 大 小 保密 。 相 反 ， 银 行 是 一 个 拉 
维 的 数字 钥 赴 和 钟 大 小 值 的 受信 权威 。 上 图 展示 了 这 一 情况 。 


总 结 这 一 讨论 的 一 种 有 用 方法 是 : 数字 挂 锁定 私有 的 ， 而 数字 铀 
十 和 钟 大 小 则 是 公开 的 。 要 承认 的 是 ， 让 钥匙 “公开 ”有 点 违背 常识 ， 
因为 在 我 们 的 日 第 生活 中 ， 我 们 习惯 于 非常 小 心地 傈 护 我 们 的 实物 钥 
坏 。 为 港 清 角 是 这 一 不 同 寻 和 常 的 用 途 ， 回 想 早 先 描述 的 实物 挂 锁 把 
戏 。 在 那个 例子 里 ， 银 行 休 有 一 把 拉 维 的 钥 古 ， 并 且 很 乐意 将 之 借 给 
任何 想 要 验证 拉 维 签名 的 人 。 因 此 ， 在 某 些 意义 上 ， 实 物 钥匙 就 是 “ 公 
开 的 ”。 同 样 的 道理 也 适用 于 乘法 钥匙 。 


现在 是 强调 一 个 重要 现实 问题 的 好 时 机 : 假如 我 们 想 要 签 闭 不止 
一 位 数 的 消 轧 呢 ? 这 一 问题 有 多 种 答案 。 第 一 个 解决 方案 是 使 用 一 个 
很 大 的 钟 大 小 ， 比如， 如 果 我 们 使 用 一 个 100 位 数 的 钟 大 小 ， 那 么 通过 
相同 的 方法 ， 我 们 能 用 100 位 数 的 签名 签署 100 位 数 的 消 奶 。 对 于 长 于 
100 位 数 的 消 轧 ， 我 们 可 以 将 消 妃 分 成 100 位 数 的 块 ， 并 单独 签 普 每 个 
块 。 但 计算 机 科学 家 们 有 一 种 更 好 的 方法 来 做 到 这 一 点 。 实 际 情况 
是 ， 出 于 签署 的 目的 ， 通 过 应 用 一 种 名 为 加 密 哈 希 函数 的 转化 方法 ， 
长 消息 能 缩减 为 单个 块 (比如 100 位 数 ) 。 我 们 已 经 在 第 五 章 谈 到 过 加 
密 哈 希 函 数 ， 它 们 在 第 五 草 被 用 作 校 验 和 ， 以 确保 大 消息 (如 一 个 软 
件 包 ) 内 容 正确 。 这 里 的 想法 也 很 类 似 : 一 条 长 消息 在 签署 前 被 缩减 
为 小 得 多 的 块 。 这 意味 着 极 大 的 “请 奶 一 一 如 软件 包 一 一 能 高 效 签 
署 。 为 简单 起 见 ， 我 们 将 在 余下 的 章 广 中 忽略 长 消 轧 问题 。 


另外 一 个 重要 问题 是 : 这 些 数字 挂 锁 和 钥匙 最 初 来 自 哪里 ? 之 前 
曾 提 到 ， 参 与 者 们 基本 上 能 为 挂 锁 选择 任意 值 。 不 邓 的 是 ， 隐 藏 在 单 
词 “essentially”( 基 本 上 ) 背后 的 细节 1 需要 对 数字 理论 有 相当 于 本 科 
课程 的 认识 。 但 假设 你 没有 机 会 学 习 数字 理论 ， 让 我 来 讲述 下 列 难 
题 : 如果 钟 大 小 是 个 素数 ， 那 么 任何 钟 大 小 之 外 的 正 值 都 可 以 作为 挂 
锁 。 否 则 ， 情 况 束 要 复杂 得 多 了 。 素 数 没 有 除 1 和 目 身 之 外 的 商 。 本 章 
中 使 用 的 钟 大 小 11 束 是 素数 。 


因此 ， 选 择 挂 锁 很 镜 单 ， 特 别 是 在 钟 大 小 为 素数 的 情况 下 。 但 一 
旦 选 定 挂 锁 ， 我 们 还 需要 应 付 解 开 选 中 挂 饥 的 对 应 数字 钥 古 。 这 是 个 
很 有 趣 一 一 也 非常 古老 一 一 的 数学 问题 。 实 际 上 ， 这 个 问题 的 解决 方 
案 流 传 了 数 个 世纪 ， 而 其 中 心思 想 甚至 要 更 为 古老 : 这 一 广为人知 的 
技巧 名 为 欧 几 里 得 算法 ， 由 项 腊 数 学 家 欧 几 里 得 于 2 000 多 年 前 发 明 。 
不 过 ， 我 们 不 必 在 此 退 寻 钥匙 生成 的 细 市 ， 只 需要 知道 ， 给 出 一 个 挂 
颂 值 ， 计 算 机 就 能 通过 一 种 名 为 欧 几 里 得 算法 的 知名 数学 技巧 得 出 相 
对 应 的 钥匙 值 。 


如 果 你 仍 对 这 一 解释 不 满意 ， 也 许 在 我 稍 后 揭示 戏剧 性 转折 后 ， 
你 会 变 得 高 兴 。 束 个 挂 锁 和 钥 恕 的 “乘法 ?方法 有 个 根本 缺陷 ， 必 须 被 
抛 章 。 在 下 一 部 分 ， 我 们 将 用 一 种 不 同 的 方法 处 理 挂 锁 和 钥 古 ， 一 种 
实际 上 已 经 在 现实 中 运用 的 方法 。 那 么 ， 为 什么 我 还 要 解释 有 缺陷 的 
乘法 系统 呢 ? 主要 原因 是 ， 所 有 人 都 熟悉 乘法 ， 这 也 意味 着 不 需要 一 
次 性 接受 大 量 新 知识 丈 能 解释 系统 。 另 外 一 个 原因 是 ， 在 有 缺陷 的 乘 
法 方法 和 我 们 将 在 下 面 考虑 的 正确 方法 之 间 ， 存 在 一 些 迷 人 的 联系 。 


但 在 继续 往 下 讲 之 前 ， 让 我 们 尝试 理解 乘法 方法 的 缺陷 。 之 前 说 
过 ， 挂 锁 值 是 私有 的 (或 秘密 的 ) ， 而 钥匙 值 则 是 公开 的 。 刚 刚 也 讨 
论 过 ， 签 名 机 制 的 参与 者 可 以 自由 选择 钟 大 小 (公开) 和 挂 锁 值 〈 仍 
旧 保 密 ) ， 然 后 通过 计算 机 生成 对 应 钥匙 值 (在 这 个 乘法 钥匙 的 特殊 
例子 中 ， 我 们 会 使 用 欧 几 里 得 算法 ) 。 钥 是 会 存储 在 一 个 受信 银行 


中 ， 而 银行 会 同 任何 请 求 的 人 展示 钥匙 值 。 乘 法 方法 的 问题 在 于 ， 用 
于 从 挂 锁 生 成 钥匙 的 同样 把 戏 一 一 基本 上 是 指 欧 几 里 得 算法 一 一 能 非 
常 完 美 地 逆向 运行 :同样 的 技术 能 让 计算 机 生成 已 有 钥匙 值 对 应 的 挂 
尔 值 ! 我 们 立 蕊 束 知 道 了 抛弃 整个 数字 签名 机 制 的 原因 。 因 为 钥匙 值 
征 公 开 的 ， 理 应 保密 的 挂 锁 值 也 能 被 任何 人 计算 出 来 。 而 一 旦 你 知道 
了 某 人 的 挂 锁 值 ， 你 就 能 伪造 那个 人 的 数字 签名 。 


用 指数 挂 饼 侈 名 


在 这 一 部 分 ， 我 们 将 升级 有 人 缺陷 的 乘法 系统 ， 代 之 以 一 种 在 现实 
中 运用 的 著名 数字 签名 机 制 RSA。 新 系统 将 使 用 一 种 不 知名 的 操作 求 
需 (exponentiation) 取代 乘法 操作 。 事 实 上 ， 我 们 经 历 了 和 第 四 章 理 
解 公 角 加密 相 同 的 求 虹 步 台 ， 我 们 先 弄 清 一 个 使 用 乘法 的 简单 的 缺陷 
系统 ， 然 后 研究 使 用 求 晨 的 真实 系统 。 


因此 ， 如 果 你 对 59 和 34 等 昨 符 号 不 熟悉 ， 这 是 个 重 温 “现实 生活 中 
的 颜料 混合 把 戏 ” 内 容 的 好 时 机 。 但 是 要 提醒 一 句 ，34 (“3 的 4 次 方 ”) 
意味 着 3x3x3x3。 男 外 ， 我 们 需要 几 个 技术 术语 。 在 如 34 这 样 的 表 壕 
中 ，4 被 称 作 指数 (exponent) 或 大 (power) ， 而 3 则 被 称 为 底 

(base) 。 在 一 个 底 上 应 用 指数 的 过 程 被 称 为 “ 自 乘 需 次 ” (raising to a 
power) ， 更 正式 的 说 法 是 求 晕 (exponentiation) 。 和 第 四 章 一 样 ， 我 
们 将 结合 求 需 与 钟 算 。 本 章 这 一 部 分 的 所 有 例子 都 用 22 作 为 钟 大 小 。 
我 们 唯一 需要 的 指数 是 3 和 7， 因 此 在 下 面 提 供 了 一 张 表 ， 显 示 n3 和 nm” 
的 值 ，n 为 1 到 20 的 整数 ( 钟 大 小 为 22) 。 


n 13 17 n n3 了 7 
1 1 ] ll 11 11 
2 8 18 lz 2 12 
3 9 9 13 19 7 
4 20 16 14 16 20 
5 15 3 15 9 
6 18 8 16 4 14 
2 3 17 1 7 19 
8 6 2 18 2 6 
9 3 15 1l9 17 13 
10 10 10 20 14 4 


钟 大 小 为 22 时 n 的 三 次 方 和 七 次 方 的 值 。 


现在 让 我 们 核实 表 中 的 两 个 项 ， 确 保 它 们 有 意义 。 看 一 下 对 应 
n=4 的 行 。 如 果 我 们 不 使 用 钟 算 ， 结 果 就 是 43 =4x4x4 = 64。 但 应 用 钟 
大 小 22 后 ，64 中 减 去 2 个 22 (44) 余 20。 这 是 n3 栏 那 一 项 为 20 的 由 来 。 
类 似 的 ， 在 不 应 用 钟 算 的 情况 下 ， 你 能 算出 47 = 16384， 比 最 接近 的 
22 的 倍数 正好 大 16 〈 如 果 你 感 兴趣 ，22 x 744 = 16 368) 。 这 解释 了 n7 
栏 那 一 项 为 16 的 由 来 。 


现在 我 们 最 终 准 备 好 了 观察 实际 运作 中 的 数字 签名 。 系 统 运作 的 
方式 和 前 一 部 分 的 乘法 方法 一 样 ， 只 有 一 个 例外 : 和 用 乘法 给 消 轧 上 
尔 及 解锁 不 同 的 是 ， 我 们 用 求 盎 来 进行 这 些 操作 。 和 前 面 的 例子 一 
样 ， 拉 维 首 先 选择 并 公开 钟 大 小 。 在 这 里 ， 拉 维 用 22 作 钟 大 小 。 然 后 
他 选择 一 个 秘密 挂 锁 值 ， 这 个 值 可 以 是 钟 大 小 之 外 的 任意 数 (受制 于 


一 些 细 市 ， 我 们 将 在 稍 后 进行 简短 讨论 ; 。 在 这 个 例子 中 ， 拉 维 选 择 3 
作为 挂 锁 值 。 然 后 ， 他 用 计算 机 算出 挂 锁 和 钟 大 小 对 应 的 钥匙 值 。 我 
们 稍 后 会 多 了 解 一 些 与 此 有 关 的 细 方 。 但 唯一 重要 的 事实 是 ， 计 算 机 
能 使 用 众所周知 的 数学 技术 ， 轻 易 根 据 挂 锁 和 钟 大 小 计算 出 钥匙 。 在 
这 个 例子 中 ， 结 果 证 明 钥 是 值 7 对 应 先前 选取 的 挂 锁 值 3。 


拉 维 承诺 向 弗 朗 索 
瓦 丝 支付 100 美元 


一 一 一 在- 一 
4 22 取 3 次 方 宕 ， 20 - 7 次 方 时 4 
8 22 取 3 次 方 竹 ， 6 22 取 7 次 方 客 8 
钟 大 小 为 22 钟 大 小 为 2 
22 取 3 次 方 寒 ， 22 取 7 次 方 宕 ， 
钟 大 小 为 22 钟 大 小 为 22 


了 求 才 给 消息 上 锁 和 解锁 。 


上 图 给 出 了 一 些 拉 维 如 何 签 嗜 消 肯 ， 以 及 其 他 人 如 何 解 锁 并 核实 
签名 的 具体 例子 。 如 果 消 息 是 “<4”， 签 名 是 “20”: 我 们 通过 以 挂 锁 值 为 
需 ， 让 消息 求 此 需 得 出 结 末 。 因 此 ， 我 们 要 计算 4 和， 在 应 用 钟 大 小 之 
后 得 20。 (不 要 起 记 ， 你 可 以 用 上 页 的 表 轻 易 地 核实 这 些 计算 。) 现 
在 ， 当 弗 朗 索 瓦 丝 想 要 验证 拉 维 的 数字 签名 "20?” 时 ， 她 先 去 银行 得 到 
拉 维 钟 大 小 和 钥匙 的 权威 值 。 (银行 和 之 前 例子 中 的 一 样 ， 除 了 数字 
不 同 外 ) 然后 弗 朗 索 瓦 丝 用 签名 求 钥 匙 值 的 窜 ， 再 应 用 钟 大 小 : 计算 
结果 为 20” = 4， 你 可 以 和 上 页 图 中 的 结果 对 照 。 如 果 结 果 和 原 消 恩 匹 


配 〈 在 这 个 例子 中 也 的 确 匹配 ) ， 签 名 为 真 。 上 图 显示 了 消 
轧 *“8” 和 “7 的 相似 计算 。 


下 表 再 次 展示 了 这 一 过 程 ， 这 次 强调 了 签名 的 验证 过 程 。 图 中 前 
两 个 例子 和 上 一 张 图 中 的 一 样 〈 分 别 是 消息 “4" 和 “8”) ， 都 是 真 签 
名。 人 第 三 个 例子 的 消 轧 是 “8”， 签 名 征 “9”。 在 应 用 钟 大 小 和 钥 古 值 解 
锁 后 ，97 的 结果 是 15， 和 原 消息 不 匹配 。 因 此 ， 第 三 条 消 轧 系 伪造 。 


、 | 数字 签名 解锁 签名 
| | (对 于 真 签名 ， 让 消息 求 挂 锁 值 3 的 备 。 对 于 | (要 解锁 签名 ， 求 钥 
“| 假 签名 ， 选 择 一 个 随机 数 。) 匙 值 7 的 宕 。) 


如 何 用 求 宪 侦 测 一 个 伪造 的 数字 签名 。 这 些 例子 使 用 的 挂 锁 值 为 3， 钥 匙 值 为 7， 钟 大 小 为 
22。 前 两 个 签名 为 真 ， 但 第 三 个 签名 系 伪造 。 

如 前 所 述 ， 这 种 求 挂 锁 值 的 需 和 求 钥 是 值 的 必 以 RSA 数 字 签 名 机 
制 而 闻名 。 这 个 名 字 由 于 20 世 纪 70 年 代 首 次 发 表 该 系统 的 三 位 发 明 者 
姓 的 首 字母 组 合 而 成 : 罗 纳 德 . 李 维 斯 特 (Ronald Rivest) 、 阿 迪 : 沙 米 
尔 (Adi Shamir) 和 和 雷 奥 纳 德 . 阿 德尔 曼 (Leonard Adlemen) 。RSA 上 听 
起 来 可 能 很 耳 熟 ， 因 为 我 们 已 经 在 讨论 公 钥 加 密 的 第 四 章 遇 到 过 这 个 
首 字 母 缩 略 词 。 事 实 上 ，RSA 既 是 一 种 公 钥 加 密 机 制 ， 又 是 一 种 数字 
签名 机 制 一 一 这 绝 非 偶然 ， 这 两 种 算法 之 间 有 着 很 深 的 理论 关系 。 在 
本 章 ， 我 们 只 探索 了 RSA 的 数字 签名 面 ， 但 你 可 能 已 经 注意 到 了 一 些 
和 第 四 章 思想 怀 人 的 相似 之 处 。 


如 何在 RSA 系 统 中 选择 钟 大 小 、 挂 锁 和 钥 是 的 细 下 非常 吸引 人 ， 
但 在 理解 大 致 方法 上 却 不 需要 这 些 细 世 。 最 重要 的 是 ， 在 这 一 系统 
中 ， 一 旦 克 定 挂 锁 值 ， 参 与 者 束 能 轻易 计算 出 合适 的 钥 古 值 。 但 其 他 
任何 人 想 要 逆转 这 一 过 程 都 不 可 能 .如 有 果 你 知道 菜 人 正在 用 的 钥匙 和 


钟 大 小 ， 你 也 不 能 算出 对 应 的 挂 锁 值 。 这 弥补 了 早 前 解释 的 乘法 系统 
的 缺陷 。 


至 少 计算 机 科学 家 认为 RSA 很 安全 ， 但 没 人 能 肯定 。RSA 是 否 真 
的 安全 ? 这 个 问题 是 整个 计算 机 科学 中 最 迷人 、 最 令 人 烦恼 的 问题 之 
一 。 要 提 一 下 ， 这 个 问题 同时 取决 于 一 个 未 解决 的 古老 数学 问题 ， 以 
及 一 个 位 于 物理 学 和 计算 机 科学 研究 交叉 地 带 的 最 新 热门 主题 。 数 学 
问题 就 是 知名 的 整数 分 解 (integer factorization) ; 而 热门 研究 主题 就 
是 量子 计算 (quantum computing) 。 我 们 将 逐一 研究 RSA 安 全 性 的 这 
两 个 方面 ， 但 在 这 么 做 之 前 ， 我 们 需要 更 好 地 了 解 一 下 ， 像 RSA 这 样 
的 数字 签名 机 制 “ 安 全 ”的 真正 含义 是 什么 。 


RSA 的 安全 性 


所 有 数字 签名 机 制 的 安全 性 都 要 归结 到 一 个 问题 “敌人 能 伪造 我 
的 签名 吗 ? ”对 于 RSA 而 言 ， 这 个 问题 可 以 转化 为 “敌人 能 根据 我 的 公 
开 钟 大 小 和 钥匙 值 计 算出 我 的 私人 挂 锁 值 吗 ? 关 是 的 ! ”这 一 问题 的 简 
单 答 案 也 许 会 让 你 感到 泪 来 。 事 实 上 ， 你 已 经 知道 ,通过 试 错 总 有 可 
能 算出 某 人 的 挂 锁 值 。 毕 竟 ， 我 们 有 消息 、 钟 大 小 和 数字 签名 。 我 们 
知道 挂 锁 值 要 小 于 钟 大 小 ， 因 此 我 们 可 以 简单 地 了 逐一 尝试 所 有 可 能 的 
挂 锁 值 ， 直 到 找到 一 个 能 生成 正确 签名 的 挂 锁 值 。 这 束 是 一 个 消息 求 
每 个 党 试 挂 锁 值 的 需 的 问题 。 在 实际 中 ， 诀 窍 是 RSA 机 制 使 用 绝对 大 
的 钟 大 小 比如 数 千 位 数 长 这样， 即便 使 用 现存 最 快 的 超级 计算 
机 ， 也 要 花 数 万 亿 年 才能 演 试 所 有 可 能 的 挂 锁 值 。 因 此 ， 我 们 对 敌人 
是 否 能 用 某 种 方法 计算 出 挂 锁 值 不 感 兴趣 。 相 反 ， 我 们 想 知 道 敌 人 是 
否 能 足够 高 效 地 这 人 么 做 ， 从 而 造成 实际 威胁 。 如 果 敌 人 的 最 佳 攻击 方 
法 就 是 试 错 计算 机 科学 家 通常 称 之 为 暴力 人 破解 (brute force) 一 一 
我 们 可 以 一 直 都 选用 足够 大 的 数 作为 钟 大 小 ， 从 而 让 攻击 变 得 不 切实 


际 。 田 一 方面 ， 如 果 敌 人 的 技术 效率 比 暴 力 破 解 快 很 多 ， 我 们 束 可 能 
有 麻烦 了 。 


比如 ， 说 回 乘 法 挂 锁 和 钥 是 机 制 ， 我 们 知道 签 嗜 人 可 以 选择 一 个 
挂 锁 值 ， 然 后 通过 使 用 欧 几 里 得 算法 计算 钥 十 值 。 但 缺陷 是 敌人 无 须 
依靠 暴力 破解 就 能 逆转 过 程 : 结果 证 明 ， 欧 几 里 得 算法 也 能 根据 钥匙 
值 计 算出 挂 锁 值 ， 而 这 一 算法 要 比 骏 力 破 解 高 效 得 多 。 这 也 是 乘法 方 
法 被 认为 不 安全 的 原因 。 


RSA 和 因 式 分 解 的 联系 


我 之 前 承诺 过 ， 要 展示 RSA 的 安全 性 与 一 个 名 为 整数 分 解 的 古老 
数学 问题 之 间 的 联系 。 为 理解 这 一 联系 ， 我 们 需要 多 知道 一 些 与 如 何 
选择 RSA 钟 大 小 有 关 的 细节 。 


首先 ， 回 顾 一 下 素数 的 定义 : 素数 就 是 只 有 1 和 它 目 身 两 个 因子 的 
数 。 比 如 ，31 是 素数 ， 因 为 只 有 1x31 才 能 得 到 31。 但 33 却 不 是 素数 ， 
因为 33=3x11。 


现在 ， 我 们 准备 好 人 研究 签署 人 一 一 如 老 朋友 拉 维 一 一 生成 RSA 钟 
大 小 的 全 过 程 。 拉 维 做 的 第 一 件 事 是 选择 两 个 非常 大 的 素数 。 基 本 上 
这 些 又 数 会 有 数 百 位 数 长 ， 但 和 之 前 一 样 ， 我 们 用 小 例子 代替 。 假 设 
拉 维 选择 了 素数 2 和 11， 然 后 将 两 数 相 乘 ， 得 到 钟 大 小 2x11=22。 钟 大 
小 会 和 拉 维 选取 的 钥 古 值 一 道 公 开 。 但 一 一 这 征 关 键 时 刻 一 一 钟 大 小 
的 两 个 素数 因子 仍然 保密 ， 只 有 拉 维 知道 。RSA 之 后 的 数学 让 拉 维 有 
方法 使 用 这 两 个 素数 因子 根据 钥匙 值 算出 挂 锁 值 ， 反 之 亦 然 。 


这 一 方法 的 细 市 在 下 图 中 得 到 了 描述 ， 但 它们 和 我 们 的 主要 目的 
无 天 。 我 们 需要 知道 的 惑 是 ， 拉 维 的 政信 不 能 使 用 公开 信息 ( 钟 大 小 
和 钥匙 值 ) 计算 出 他 的 保密 挂 锁 值 。 但 如 果 他 的 敌人 也 知道 钟 大 小 的 


两 个 素数 因 了 于 ， 他 们 吏 能 轻易 计算 出 保密 的 挂 锁 值 。 换 言 之 ， 如 采 拉 
维 的 敌人 能 将 钟 大 小 因 式 分 解 ， 他 们 就 能 伪造 拉 维 的 签名 。 (当然 ， 
可 能 还 有 其 他 破解 RSA 的 方法 。 对 钟 大 小 进行 高 效 因 式 分 解 只 是 可 能 
的 攻击 方法 之 一 。) 


在 这 个 小 例子 中 ， 将 钟 大 小 因 式 分 解 (并 破解 数字 签名 机 制 ， 非 
常 容 易 ， 所 有 人 都 知道 22=2x11。 但 当 钟 大 小 有 数 百 位 或 数 千 位 数 长 
时 ， 找 出 因子 器 变 得 极其 困难 了 。 事 实 上 ， 尽 管 这 个 所 谓 的 “整数 分 
外 "问题 被 研究 了 数 个 世纪 ， 还 没 人 找到 一 个 足够 高 效 的 通用 方法 解决 
， 并 对 标准 RSA 钟 大 小 造成 危害 。 


数学 史 中 充 满 了 未 解决 问题 ， 尽 管 这 些 迷 人 问题 缺乏 任何 实际 应 
， 单 靠 其 美学 特质 就 吸引 了 数学 家 进行 深入 研究 。 令 人 颇 感 惊讶 的 
许多 这 类 迷人 但 显然 无 用 的 问题 后 来 都 有 了 很 大 的 实用 价值 一 一 
在 一 些 例子 中 ， 这 一 价值 只 有 在 问题 被 研究 数 个 世纪 后 才 发 现 。 


叶 惟 


ta 到 


来 ， 拉 维 将 两 个 素数 各 减 1， 再 将 相 减 后 得 到 的 数 相 乘 。 这 就 得 到 
了 拉 维 “第 二 ” 钟 大 小 。 在 这 个 例子 中 ， 拉 维 再 将 原 素数 各 减 1 后 分 
别 得 到 1 和 10， 因 此 第 二 钟 大 小 为 1x10=10。 


这 时 ， 我 们 遇 到 了 一 个 令 人 极其 愉快 的 联系 ， 这 一 联系 和 之 
前 描述 的 有 缺陷 的 乘法 挂 锁 钥 古 系统 有 关 : 拉 维 根据 乘法 系统 选 
择 了 挂 锁 和 钥匙 ， 但 却 使 用 第 二 钟 大 小 而 非 第 一 钟 大 小 。 结 果 显 
示 ， 当 使 用 第 二 钟 大 小 10 时 ， 与 之 对 应 的 乘法 钥 是 为 7。 我 们 能 很 
快 证 明 这 一 方式 奏效 消息 “8" 乘 上 挂 锁 值 为 gx3=24， 应 用 钟 大 小 
10 后 得 “4”。 用 钥匙 解锁 “4” 得 4x7=28， 应 用 钟 大 小 后 得 “8” 一 一 和 
原 消 息 一 样 。 

现在 拉 维 的 工作 完成 了 : 他 将 乘法 挂 铬 和 刚刚 选择 的 钥匙 直 
接 用 作 RSA 系 统 中 的 指数 挂 锁 和 钥匙 。 当 然 ， 它 们 被 当 作 指 数 使 
用 时 会 选择 第 一 钟 大 小 22。 


生成 RSA 钟 、 挂 锁 和 钥匙 值 的 所 有 细节。 


整数 分 解 这 一 问题 由 来 已 入。 对 其 最 早 的 严肃 研究 似乎 是 在 17 世 

纪 ， 由 数学 家 费 马 (Fermat) 和 梅森 (Mersenne ) 进行 。 欧 拉 

(Euler) 和 高 斯 (Gauss) 两 位 数学 泰斗 一 一 也 在 接 下 来 的 世纪 

里 对 这 一 问题 做 出 了 贡献 ， 其 他 许多 人 也 贡献 了 自己 的 力量 。 但 直到 

公 钥 加 密 于 20 世 纪 70 年 代 发 明 ， 分 解 大 数字 的 困难 才 成 为 一 个 实际 应 

用 的 关键 。 你 现在 应 该 知道 ， 任 何 发 明 一 种 高 效 分 解 大 数字 算法 的 人 
都 能 随意 伪造 数字 签名 。 


在 这 昕 起 来 有 点 危 言 等 听 之 前 ， 我 要 澄清 一 点 ，20 世 纪 70 年 代 后 
发 明了 无 数 其 他 数字 签名 机 制 。 尽 管 每 种 机 制 都 依赖 于 一 些 基本 数学 
难题 的 难 解 度 ， 但 不 同 的 机 制 依赖 不 同 的 数学 难题 。 因 此 ， 发 明 一 种 
高 效 的 分 解 因子 算法 只 会 破坏 类 RSA 机 制 。 


另 一 方面 ， 计 算 机 科学 家 都 对 一 个 适用 于 所 有 这 些 系统 的 迷人 问 
题 感到 困扰 : 没有 一 种 机 制 被 征明 走 安全 的 。 每 一 种 机 制 都 依赖 于 一 
些 很 复杂 、 解 题 时 间 很 长 的 数学 难题 。 而 在 每 个 难题 中 ， 理 论 学 家 义 
不 能 证 明 没有 高 效 解决 方案 存在 。 因 此 ， 尽 管 专家 们 认为 可 能 性 非常 
低 ， 但 原则 上 任何 时 候 任何 一 种 加 密 或 数字 签名 机 制 都 可 能 被 攻破 。 


RSA 和 量子 计算 机 的 联系 


我 郊 现 了 揭露 RSA 和 一 个 古老 数学 问题 之 间 联 系 的 承诺 ， 但 还 未 
解释 RSA 与 量子 计算 这 一 热门 研究 主题 之 间 的 联系 。 要 探究 这 一 联 
系 ， 我 们 必须 首先 接受 下 列 基本 事实 : 在 量子 力学 中 ， 物 体 移 动 由 概 
率 主 导 一 一 与 经 典 物理 学 的 决定 论 定律 (deterministic laws) 相反 。 
此 ， 假 如 你 用 易 受 量子 力学 影响 的 部 件 搭 建 一 人 台 计 算 机 ， 它 所 计算 的 
值 会 由 概率 决定 ， 而 非 经 典 计算 机 生成 的 由 0 和 1 组 成 的 绝对 确定 的 序 
列 。 看 待 这 一 情况 的 另 一 种 角度 是 ， 量 子 计 算 机 会 同时 存储 多 个 不 同 
的 值 : 不 同 的 值 有 不 同 的 概率 ， 但 在 你 强迫 计算 机 输出 一 个 最 终 答 案 
前 ， 所 有 值 都 同时 存在 。 这 让 量子 计算 机 同时 计算 多 个 不 同 可 能 的 答 
案 成 为 可 能 。 对 于 一 些 特定 种 类 的 问题 ， 你 可 以 使 用 “又 力 破解 "方法 
同时 党 试 所 有 可 能 的 解决 方案 ! 


这 确实 只 对 特定 种 类 的 问题 奏效 ， 但 整数 分 解 恰巧 就 古 量子 计算 
机 在 执行 效率 上 比 经 典 计算 机 快 得 多 的 任务 之 一 。 因 此 ， 如 采 你 能 搭 
建 一 台 能 处 理 数 千 位 数 数字 的 量子 计算 机 ， 你 融 能 像 先前 解释 的 一 样 
伪造 RSA 签 名 : 因 式 分 解 公开 钟 大 小 ， 使 用 因子 得 到 第 二 钟 大 小 ， 再 
使 用 第 二 钟 大 小 从 公开 钥匙 值 中 获得 私密 挂 锁 值 。 


在 我 于 2011 年 写 下 这 些 文字 时 ， 量 子 计算 的 理论 超前 实践 很 多 。 
研究 人 员 们 竹 试 搭建 真正 的 量子 计算 机 ,但 目前 为 止 由 量子 计算 机 执 
行 的 最 大 因 式 分 解 是 15=3x5 一 一 离 因 式 分 解数 干 位 数 长 的 RSA 钟 大 小 


还 相差 甚 远 ! 而 且 在 创造 更 大 的 量子 计算 机 前 ， 还 有 非常 具体 的 问题 
需要 解决 。 因 此 ， 没 人 知道 量子 计算 机 何 时 一 一 或 能 否 一 一 大 到 能 够 
一 次 性 破解 RSA 系 统 。 


| 实际 中 的 数 子 人 签名 


在 本 章 开头 ， 我 们 了 解 到 如 你 我 的 终端 用 户 并 没有 太 多 数字 签名 
的 需求 。 一 些 计 算 机 深度 用 户 的 确 会 对 电子 邮件 消息 等 东西 签名 ， 但 
对 于 绝 大 多 数 人 而 言 ， 数 字 签 名 的 主要 用 途 是 验证 下 载 后 的 内 容 。 最 
明显 的 例子 是 ， 当 你 下 载 一 份 新 软件 时 ， 如 果 软 件 有 签名 ， 计 算 机 就 
会 使 用 签名 者 的 公 钥 “ 解 开 ”签名 ， 并 将 结果 和 签名 者 的 “消息 ”一 一 也 
就 是 软件 本 身 一 一 对 比 。[ 之 前 提 过 ， 在 实践 中 ， 软 件 会 在 签名 前 
被 缩减 成 一 条 小 得 多 的 名 为 安全 哈 希 (secure hash) 的 消息 。] 
如 果 解 开 的 签名 与 软件 匹配 ， 你 会 看 到 一 条 鼓舞 人 的 消息 ; 否则 ， 你 
会 看 到 一 个 更 加 可 怕 的 警告 : 这 两 个 例子 都 在 本 章 开 头 的 图 中 有 显 
ee 


我 一 直 都 强调 ， 本 章 所 有 机 制 都 需要 某 种 受信 "银行 ”存储 签名 者 
的 公 铀 和 钟 大 小 。 圣 运 的 是 ， 你 可 能 也 注意 到 了 ， 每 次 下 完 一 些 软 
件 ， 你 都 无 须 去 一 家 真正 的 银行 。 在 现实 生活 中 ， 存 储 公 钥 的 受信 组 
织 被 称 为 认证 机 构 (certification authorities) 。 所 有 认证 机 构 都 有 维护 
服务 器 ， 有 需要 的 人 可 以 连接 这 些 服务 器 下 载 公 钥 信息 。 因 此 ， 当 你 
的 计算 机 收 到 一 个 数字 签名 时 ， 签 名 还 会 伴 有 说 明 可 以 去 哪些 认证 机 
构 获 取 签 名 者 公 钥 的 信息 。 


你 可 能 已 经 注意 到 了 这 个 问题 ， 的确 ， 计 算 机 能 先 一 步 通 过 制定 
认证 机 构 验 证 签名 ， 但 我 们 怎么 才能 信任 机 构 本 号 呢 ? 我 们 的 做 法 就 
是 将 验证 一 个 组 织 (发 送 软件 给 你 的 组 织 ， 如 NanoSoft.com) 身份 的 
问题 ， 转 移 为 验证 男 一 个 组 织 (认证 机 构 ， 如 TrustMe Inc) 身份 的 问 


题 。 不 管 你 相 不 相信 ， 这 个 问题 基本 上 通过 认证 机 构 (TrustMe Inc.) 
的 数字 签名 指引 你 前 往 另 一 个 认证 机 构 (如 PleaseTrustUs Ltd.) 验 
证 。 这 种 信任 链 可 以 无 限 扩展 ， 但 我 们 永远 会 卡 在 同一 问题 上 : 我 们 
如 何 能 信任 链条 末端 的 组 织 ? 答案 如 上 图 所 示 ， 一 些 特定 组 织 被 正式 
指认 为 所 谓 的 根 认 证 机 构 。VeriSign、GlobalSign 和 GeoTrust 等 都 是 较 
为 知名 的 根 认证 机 构 。 在 你 有 要 求 时 ， 众 多 根 认 证 机 构 的 联系 细节 
(包括 互联 网 地 址 和 公 钥 ) 会 预 装 到 浏览 器 软件 中 ， 这 也 是 数字 证 书 
的 信任 链 稳 立 于 一 个 值得 信任 的 起 点 的 原因 。 


签名 ; 


NanoSoft.com yy 


PleaseTmstus ， 


预 装 在 浏览 器 中 


= me 


获取 验证 数字 签名 所 需要 的 信任 链 。 
== ys 
浮 论 解决 


在 本 章 开 头 ， 我 指出 “digital signature” (数字 签名 ) 这 一 短语 可 以 
被 视 为 矛盾 修 贤 法 : 任何 数字 的 东西 都 能 被 拷贝 ， 而 签名 不 应 该 能 被 
拷贝 。 如 何 解 决 这 一 悖 论 呢 ? 答案 是 ， 一 个 数字 签名 同时 依赖 一 个 只 
有 签名 者 知道 的 秘密 和 被 签 著 的 消息 。 对 于 由 某 一 特别 实体 签署 的 所 
有 消息 ， 秘 密 (我 们 在 全 章 中 称 其 为 挂 锁 ) 都 相同 。 因 此 ， 任 何人 都 
能 轻易 拷贝 签名 的 事实 融 变 得 无 关 暴 要 了 : 签名 只 可 能 转化 成 一 条 相 
同 的 消 轧 ， 仅 仅 是 拷贝 签名 并 不 构成 伪造 。 


这 一 悖 论 的 解决 方案 不 仅仅 是 个 精巧 美丽 的 思想 。 数 字 签 名 还 起 
着 巨大 的 实际 作用 : 没有 数字 签名 ， 我 们 所 知 的 互联 网 区 不 会 存在 。 
数据 仍 可 以 通过 加 蜜 安全 交换 ， 但 要 验证 接收 数据 的 来 源 殉 要 困难 得 
多 。 这 一 伟大 思想 和 如 此 广泛 的 实际 影响 相 结合 ， 无 疑 让 数字 签名 成 
为 计算 机 科学 中 最 伟大 的 成 束 之 一 。 


第 十 草 ”什么 可 以 计算 一 一 有 些 程 序 不 可 
能 存在 


让 我 提醒 你 一 些 计 算 机 的 问题 。 

一 一 理 查 德 . 费 受 (Richard Feynman) ， 

1965 年 诺 贝 尔 物 理学 交 获 得 者 

我 们 已 经 见识 过 很 多 聪明 、 强 大 且 精 准 的 算法 一 一 这 些 算法 将 计 

算 机 的 生硬 金属 化 为 你 指 尖 的 精灵 。 事 实 上 ， 根 据 前 面 章 下 的 描述 ， 
很 自然 让 人 想到 : 有 什么 事情 是 计算 机 不 能 为 我 们 做 到 的 吗 ? 如果 我 
们 把 范围 限制 在 计算 机 现在 能 做 的 事情 上 ， 答 案 很 清楚 : 目前 ， 计 算 
机 在 许多 有 用 任务 (大 多 数 设计 某 种 形式 的 人 工 智 能 ) 上 表现 不 好 。 
例如 英语 和 汉语 这 些 语言 之 间 的 高 质量 翻译 ， 在 繁忙 的 城市 环境 中 目 
动 控制 车 辆 安全 快速 行驶 ;给 学 生 功 课 打分 (作为 老师 ， 这 对 我 来 说 
是 个 大 问题 ) 。 


然而 ， 正 如 我 们 已 经 看 到 那样 ， 一 个 真正 聪明 的 算法 能 取得 的 成 
果 利 利 出 人 意料 。 也 许 束 在 明天 ， 有 人 发 明了 一 种 完 类 区 驶 汽车 的 算 
法 ， 或 一 种 在 给 学 生 打 分 上 效果 很 好 的 算法 。 这 些 问 题 看 起 来 的 确 很 
困难 ， 但 是 否 困难 到 不 能 解决 呢 ? 的确 ， 有 问题 能 难 到 永远 没有 人 能 
发 明 解决 它 的 算法 吗 ? 在 本 章 ， 我 们 会 看 到 答案 是 肯定 的 : 有 些 问题 
计算 机 永远 也 解决 不 了 。 这 一 显著 事实 一 一 一 些 事情 “可 计算 ”而 其 他 
事情 则 不 能 一 一 与 我 们 在 前 面 章 市 中 所 见 的 许多 算法 形成 有 趣 对 比 。 
不 管 未 来 会 发 明 多 少 聪明 算法 ， 有 些 问 题 的 答案 永远 也 “不 可 计算 ”。 


不 可 计算 问题 的 存在 本 吴 吏 足够 震撼 ， 但 发 现 它 们 的 故事 更 令 人 
印象 深刻 。 在 发 明 出 第 一 台电 子 计算 机 前 ， 这 类 问题 的 存在 就 已 为 人 
所 知 。 有 两 位 数学 家 一 一 一 位 是 美国 人 ， 一 位 十 英国 人 一 一 于 20 世 纪 
30 年 代 末 各 目 独 立 发 现 了 不 可 计算 问题 ， 比 第 一 台 真 正 的 计算 机 目 第 
二 次 世界 大 战 之 间 出 现 早 数 年 。 那 位 美国 人 是 阿 隆 佐 - 印 奇 (Alonzo 
Church) ， 其 在 计算 理论 上 的 突破 性 工作 至 今 仍 是 计算 机 科学 许多 方 
面 的 基础 。 那 位 美国 人 只 能 是 阿兰 :图 灵 ， 其 锐 普 裔 视 为 创建 计算 机 科 
学 最 重要 的 人 物 。 图 灵 的 工作 横 跨 计算 思想 的 整个 范围 ， 从 复杂 的 数 
学 理论 、 伟 大 的 哲学 到 大 胆 实际 的 工程 学 。 在 本 草 ， 我 们 追随 即 奇 和 
图 灵 的 脚步 ， 进 行 一 次 最 终 会 展示 某 个 特殊 任务 不 可 能 使 用 计算 机 完 
成 的 旅程 。 这 一 旅程 将 于 下 一 部 分 对 漏洞 和 朋 溃 的 讨论 开始 。 


漏洞 、 朋 并 及 软件 的 可 菲 性 


近年 来 计算 机 软件 的 可 靠 性 得 到 了 大 幅 提 升 ， 但 我 们 都 知道 ， 假 
设 软件 会 正确 运行 仍然 不 是 一 个 好 主意 。 最 通 音 的 情况 是 ， 即 便 高 质 
量 、 编 写 民 好 的 软件 都 会 做 些 偏 离 其 原 有 目的 的 事 。 最 糟 灼 情况 
是 ， 软 件 “ 有 崩溃 *"， 你 丢失 了 正在 处 理 的 数据 或 文件 (或 你 正在 玩 的 视 
频 游戏 一 一 非常 令 人 不 解 ， 我 就 磁 到 过 这 种 事 ) 。 但 任何 在 20 世 纪 80 
年 代 和 90 年 代 见 过 家 用 计算 机 的 人 都 能 作证 ， 当 时 计算 机 程序 朋 浇 的 
频率 要 比 21 世 纪 大 得 多 。 取 得 这 一 提升 有 许多 原因 ， 但 主要 原因 十 目 
动 化 软件 检查 工具 上 取得 的 巨大 进步 。 换 言 之 ,一 旦 一 组 计算 机 程序 
员 编 写 完 一 个 复 洒 的 大 型 计算 机 程序 ， 他 们 束 能 使 用 一 个 目 动工 具 检 
查 可 能 导致 这 一 新 建 软件 崩溃 的 问题 。 而 这 些 目 动 化 检查 工具 在 发 现 
潜在 错误 上 也 变 得 越 来 越 好 。 

这 目 然 会 让 人 思考 一 个 问题 ， 目 动 化 软件 检查 工具 外 


以 贷 测 所 有 计算 机 程序 中 所 有 潜在 问题 的 地 步 呢 ?要 足 
好 ， 因 为 这 能 一 劳 永利 地 消除 软件 朋 浊 的 可 能 性 。 我 们 将 


人 否 发 展 到 可 
这 样 肯定 很 
在 本 章 了 解 


巴 
已 
巴 
书 


到 ， 永 远 也 达 不 到 这 种 软件 理想 境界 : 可 以 证 明 不 可 能 有 软件 检查 工 
具 能 侦 测 出 所 有 程序 中 所 有 可 能 的 月 并 。 


在 这 里 ， 值 得 伦 多 点 时 间 解 释 一 些 事情 “可 以 证 明 不 可 能 ”的 意 
思 。 在 物理 学 和 生物 学 等 大 多 数 科学 中 ， 科 学 家 们 会 对 特定 系统 的 行 
为 方式 提出 假说 ， 并 开展 实验 ， 验 证 假说 是 否 正 确 。 但 由 于 实验 本 身 
有 一 定 的 不 确定 性 ， 并 不 能 百 分 百 确定 假说 正确 与 否 ， 即 便 实 验 本 号 
非 党 成功。 然而， 与 目 然 科学 形成 鲜明 对 比 的 是 ， 对 数学 和 计算 机 科 
学 的 一 些 结 果 是 可 能 百 分 百 予以 确定 的 。 只 要 你 接受 数学 基本 定理 
(如 1+1=2) ， 数 学 家 使 用 的 演绎 推理 链 可 以 完全 确定 其 他 众多 语句 
为 真 〈 比 如 ,“ 任 何以 5 结束 的 数 都 能 被 5 相 除 ") 。 这 种 推理 并 不 涉及 
计算 机 : 数学 家 只 使 用 一 文 铅 笔 和 一 张 纸 就 能 证 明 无 可 争辩 的 事实 。 


因此 ， 在 计算 机 科学 中 ， 当 我 们 说 “X 可 以 证 明 不 可 能 时， 我 们 
并 不 只 是 说 X 似 乎 非常 困难 ， 或 在 实际 中 也 许 不 可 能 实现 ， 而 是 百 分 
百 确 定 X 不 可 能 实现 ， 因 为 有 人 用 演绎 数学 推理 链 证 明了 这 一 点 。 举 
个 简单 例子 ,，“10 的 倍数 以 数字 3 结尾 可 以 证 明 不 可 能 *。 为 一 个 例子 是 
本 章 的 最 终结 论 ， 可 以 证 明 不 可 能 存在 一 个 能 侦 测 所 有 计算 机 程序 中 
所 有 潜在 朋 江 的 目 动 化 软件 检查 器 。 


证 明 一 些 事情 不 为 真 


要 证 明 这 种 毅 溃 侦 测 程序 不 可 能 存在 ， 我 们 将 要 使 用 一 种 被 数学 
家 称 为 反 证 法 (proof by contradiction) 的 技巧 证 明 。 尽 管 数学 家 喜欢 
对 这 一 技巧 宣示 权利 ， 但 实际 上 人 们 在 日 常生 活 中 常常 用 到 它 ， 经 常 
连 想 都 没 想 过 。 举 个 简单 例子 : 


一 开始 ， 我 们 要 同意 下 面 两 个 事实 ， 即 便 征 最 持 怀 疑 的 历史 学 家 
也 不 会 对 此 有 异议 。 


1. 美国 内 战 发生 在 19 世 纪 60 年 代 。 
2. 亚伯拉罕 .林肯 是 美国 内 战 期 间 的 总 统 。 


现在 ， 假 设 我 作出 以 下 声明 : “亚伯拉罕 -林肯 生 于 1520 年 。” 这 一 
声明 是 真 征 假 ? 即便 你 除了 上 面 两 个 事实 外 对 亚伯拉罕 :林肯 一 无 所 
知 ， 你 怎 能 快速 判断 我 的 声明 为 假 呢 ? 


最 有 可 能 的 情况 是 ， 你 的 大 脑 会 经 历 类 似 下 面 的 推理 链 : (1) 没 
有 人 的 寿命 能 超过 150 年 ， 因 此 如 果 亚 伯 拉 罕 :- 林 肯 生 于 1520 年 ， 他 最 
迟 也 是 在 1670 年 死亡 ;， (2) 林肯 是 美国 内 战 期 间 的 总 统 ， 因 此 内 战 必 
须发 生 在 林肯 死亡 前 ， 也 就 是 发 生 在 1670 年 前 ; (3) 但 这 不 可 能 ， 
为 所 有 人 都 认同 美国 内 战 发 生 在 19 世 纪 60 年 代 ; (4) 因此 ， 林 肯 不 可 
能 生 于 1520 年 。 


让 我 们 党 试 更 细致 地 检验 这 一 推理 。 为 何 得 出 最 开始 声明 为 假 的 
结论 有 效 ? 这 是 因为 我 们 证 明 这 一 断言 与 一 些 已 知 为 真 的 事实 矛盾 。 
守 别 是 ， 我 们 证 明 最 初 声明 暗示 美国 内 战 发 生 在 1670 年 前 一 一 这 与 美 
国内 战 发 生 在 19 世 纪 60 年 代 的 已 知事 实 相 矛盾 。 


肥 证 法 技巧 极其 重要 ， 我 还 要 再 多 举 点 数学 例子 。 假 设 我 做 出 下 
列 断 言 :“ 人 的 心脏 10 分 钟 内 平均 跳 6 000 次 。” 这 一 断言 是 真是 假 ? 你 
也 许 很 快 惑 会 怀疑 ， 但 你 要 如 何 证 明 其 为 假 呢 ? 现在 ， 在 继续 往 下 读 
前 ， 花 几 秒 钟 分 析 下 你 的 思考 过 程 。 


我 们 可 以 再 用 反 证 法 。 首 先 ， 出 于 论证 的 目的 ， 假 设 这 一 断言 为 
真 ， 人 的 心脏 10 分 钟 平均 跳 约 6 000 次 。 如 果 这 一 断言 为 真 ， 一 分 钟 心 
脏 会 跳动 多 少 次 ? 平均 来 看 ， 用 6 000 除 以 10， 也 就 是 一 分 钟 600 次 。 
即便 不 是 医学 专家 ， 你 也 知道 这 比 正常 心率 高 很 多 ， 正 常 心 率 约 为 每 
分 钟 50 次 至 150 次 心跳 。 因 此 ， 原 始 声 明 与 已 知事 实 了 矛盾， 肯定 为 假 : 
人 的 心脏 10 分 钟 平均 跳动 约 6 000 次 为 假 。 


用 更 抽象 的 术语 表示 ， 可 以 如 下 总 结 反 证 法 : 假设 怀疑 某 个 声明 S 
为 假 ， 但 你 却 想 确 信 无 疑 地 证 明 其 为 假 。 首先 ， 你 假设 S$ 为 真 。 通 过 进 
行 一 些 推理 ， 你 得 出 某 个 声明 T 也 必须 为 真 。 然 而 ， 如 果 已 知 T 为 假 ， 
就 出 现 了 矛盾 。 这 证 明 你 的 原始 假设 (S) 也 必 为 假 。 


数学 家 可 以 更 为 稍 短 地 说 明 这 些 ， 只 要 说 “S 导 出 T， 但 IT 为 假 ， 因 
此 S 为 假 ? 这 样 的 话 即 可 。 简 言 之 ， 这 束 定 反 证 法 。 下 表 展 示 了 如 何 将 


这 一 


抽象 反 证 法 与 上 面 两 个 例子 联系 起 来 : 


Li 
J 


| 
生 年 
其 为 | 美国 内 战 发 生 在 1670 年 “| 人 的 心脏 每 分 钟 跳 600 次 
前 


林肯 并 非 生 于 1520 年 心脏 10 分 钟 内 不 会 跳 6 000 


到 这 里 ， 我 们 进行 反 证 法 的 旅程 就 完成 了 。 本 章 的 最 终 目 标 是 通 
过 反 证 证 明 ， 不 存在 一 个 能 侦 测 其 他 程序 中 所 有 可 能 月 江 的 程序 。 但 
在 近 问 这 一 最 终 目标 前 ， 我 们 需要 熟悉 一 些 和 计算 机 程序 有 关 的 有 趣 
概念 。 


分 析 其 他 程序 的 程序 


计算 机 会 严格 按照 计算 机 程序 的 指令 行事 。 它 们 完全 按照 决定 论 
方式 行事 ， 因 此 每 次 运行 同一 计算 机 程序 都 会 得 到 相同 的 结果 。 输 出 
征 对 还 是 错 ? 事实 上 ， 我 还 没有 给 你 足够 信息 来 回答 这 一 问题 。 的 
确 ， 特 定 的 简单 计算 机 程序 每 次 运行 后 都 能 得 到 相同 的 结果 ， 但 我 们 


每 天 使 用 的 绝 大 多 数 程序 每 次 在 运行 时 看 起 来 都 非常 不 同 。 想 想 你 最 
喜欢 的 文字 处 理 程序 : 每 次 启动 时 屏幕 看 起 来 都 一 样 吗 ? 当然 不 是 
一 一 屏幕 出 现 什 么 取决 于 你 打开 的 文件 类 型 。 如 果 我 使 用 Microsoft 
Word 软 件 打开 文件 “address-listdocx”， 屏 幕 就 会 显示 一 个 我 保存 在 电 
脑 上 的 地 址 列表 。 如 果 我 用 Microsoft Word 软 件 打 开 文 件 “bank- 
letterdocx”， 我 就 能 看 到 昨天 写 给 银行 的 信件 文本 。 (如 果 你 不 认 
识 “.docx”， 请 在 下 页 的 框 中 查找 关于 文件 名 后 缀 的 内 容 。) 


有 件 事 我 们 要 非常 清楚 : 我 在 这 两 个 例子 中 使 用 的 都 征 同 一 款 计 
算 机 程序 ， 也 就 是 Microsoft Word 软 件 ， 只 是 每 个 例子 中 的 输入 不 同 喷 
了 。 不 要 被 所 有 现代 操作 系统 都 能 让 你 双击 一 个 文件 来 运行 一 个 计算 
机 程序 这 一 事实 所 愚弄 。 那 只 是 你 友好 的 计算 机 公司 (最 可 能 是 苹果 
或 微软 ) 提供 给 你 的 一 项 便利 。 当 你 双击 一 份 文件 时 ， 一 个 特定 的 计 
算 机 程序 束 会 运行 ， 程 序 会 将 文件 当 作 输入 使 用 。 而 程序 的 输出 就 是 
你 在 屏幕 上 看 到 的 ， 这 取决 于 你 点 击 了 什么 文件 。 


一 些 关 于 文件 名 后 缀 的 技术 细 广 。 


在 现实 中 ， 计 算 机 程序 的 输入 和 输出 要 比 这 复杂 得 多 。 比 如 ， 当 
你 点 击 一 个 程序 的 菜单 或 打字 时 ， 你 都 在 给 程序 以 额外 输入 。 当 你 保 


存 一 个 文档 或 其 他 文件 时 ， 程 序 会 创造 额外 输出 。 但 为 保持 简单 起 
见 ， 假 设 程序 接收 的 都 是 同样 的 输入 ， 即 存储 在 你 计算 机 上 的 一 个 文 
件 。 我 们 还 假设 程序 得 到 相同 的 输出 ， 即 你 显示 屏 上 的 图 形 窗口 。 


不 过 的 是 ， 双 击 文件 的 现代 便利 产生 了 一 个 重要 问题 。 操 作 系 统 
使 用 多 种 聪明 的 把 戏 来 推测 ， 当 你 双击 一 个 文件 时 ， 你 布 望 运行 哪个 
程序 。 但 用 任意 程序 打开 任意 文件 是 可 能 的 ， 意 识 到 这 一 点 很 重要 。 
换言之 ， 你 可 以 将 任意 文件 作为 输入 来 运行 任意 程序 。 这 一 切 是 怎么 
做 到 的 ? 下 面 的 框 列 出 了 几 种 可 以 让 你 尝试 的 方法 。 这 些 方法 不 会 在 
所 有 操作 系统 上 奏效 ， 也 不 能 对 所 有 输入 文件 奏效 一 一 不 同 的 操作 系 
统 用 不 同 的 方式 局 动 程序 ， 有 时 候 出 于 安全 考虑 ， 它 们 会 限制 输入 文 
件 的 选择 。 不 管 有 怎样 ， 我 强烈 建议 你 花 几 分 钟 在 电脑 上 试验 ， 以 确信 
你 钟爱 的 文字 处 理 程序 可 以 用 多 种 不 同 的 输入 文件 运行 。 


用 某 一 特定 文件 作为 输入 运行 一 个 程序 的 多 种 方法 。 


Wk Microsoft Excel -photo jpg 
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Microsoft Excel 将 “photo.jpg” 作 为 输入 运行 的 结果 。 输 出 虽 是 乱码 ， 但 重要 的 是 ， 原 则 上 你 能 
任何 输入 运行 任意 程序 。 


很 显然 ， 如果 使 用 程序 打开 本 非 其 能 处 理 的 文件 ， 你 会 得 到 相当 
出 人 意料 的 结果 。 在 上 图 中 ,你 可 以 看 到 用 电子 表格 程序 Microsoft 
Excel 打 开 图 片 文件 “photo.jpg” 时 出 现 的 情景 。 这 个 例子 得 到 的 输出 是 
乱码 ， 军 无 用 处 。 但 电子 表格 程序 的 确 运 行 了 ， 并 生成 了 一 些 输出 。 


上 面 的 例子 看 起 来 已 经 很 荡 诬 了 ， 但 我 们 要 更 加 疯狂 一 点 。 你 应 
该 还 记得 ， 计 算 机 程序 本 里 就 作为 文件 存储 在 计算 机 硬盘 上 。 通 常 ， 
这 些 程序 的 名 字 以 “.exe” 结 必 ，“exe” 是 “executable”( 可 执行 ) 的 缩 
写 ， 表 示 你 能 “execute” (执行 ) 或 运行 程序 。 因 为 计算 机 程序 只 是 硬 
盘 上 的 文件 ， 我 们 可 以 将 一 个 计算 机 程序 作为 另 一 个 计算 机 程序 的 输 
入 。 比 如 ，Microsoft Word 程 序 在 计算 机 上 以 文件 “WINWORD.EXE” 存 
储 ， 通 过 将 文件 WINWORD.EXE 作 为 输入 来 运行 电子 表格 程序 ， 我 能 
得 到 如 下 图 中 所 示 的 乱码 。 


MN ~ 于 重 ) 
ed 


用 Microsoft Excel 检 查 Microsoft Word。 当 Microsoft Excel 打 开 文 件 WINWORD.EXE， 得 到 的 结 
果 是 乱码 一 点 也 不 让 人 意外 。 


和 前 面 一 样 ， 值 得 杀 上 自 试 一 试 这 个 实验 。 要 进行 这 一 实验 ， 你 需 

要 先 找 到 文件 WINWORD.EXE。 在 我 的 计算 机 上 ，WINWORD.EXE 位 

于 文件 夹 “Ci\Program Files\Microsoft Office\Office12” 内 ， 但 其 具体 位 

置 取 决 于 你 使 用 的 操作 系统 以 及 安装 的 Microsoft Office 版 本 。 在 查看 

这 二 二 二 let a 。 顺便 提 

一 句 ， 你 可 以 用 任何 电子 表格 或 文字 处 理 程序 进行 这 一 实验 (以 及 下 
面 的 一 个 实验 ) ， 党 试 并 不 一 定 要 用 Microsoft ey o 


我 们 还 要 做 最 后 一 件 傻 事 。 如 果 用 一 个 计算 机 程序 自身 作为 输入 
来 运行 这 个 程序 呢 ? 比如， 如 果 我 用 文件 WINWORD.EXE 作 为 输入 来 
运行 Microsoft Word 呢 ?尝试 这 一 实验 很 容易 。 下 图 显示 了 我 在 计算 机 
上 试验 的 结果 。 和 之 前 的 几 个 例子 一 样 ， 程 序 运 行 民 好 ， 但 屏幕 上 的 
输出 绝 大 多 数 是 乱码 。 (自己 尝试 一 下 。) 


那么 ， 所 有 这 些 例子 想 表达 什么 ? 论述 的 目的 是 ， 让 你 能 对 一 些 
在 运行 程序 时 出 现 的 更 难 懂 的 事情 见怪 不 怪 。 现 在 ， 你 应 该 适应 这 三 
个 略 显 奇怪 但 在 后 面 非常 重要 的 想法 了 。 第 一 ， 任 何 程 序 可 以 将 任何 
文件 作为 输入 运行 ， 但 通常 输出 结 来 为 乱码 ， 除非 输入 文件 本 该 配合 


由 你 选择 运行 的 程序 。 第 二 ， 我 们 发 现 ， 计 算 机 程序 作为 文件 存储 在 
计算 机 磁盘 上 ， 因 此 一 个 程序 可 以 用 另 一 个 程序 作为 其 输入 文件 运 
行 。 第 三 ， 我 们 意识 到 ， 计 算 机 程序 能 将 其 目 身 文件 作为 输入 运行 。 
到 目前 为 止 ， 第 二 种 和 第 三 种 活动 的 结果 一 直 是 乱码 ， 但 我 们 将 在 下 
一 部 分 看 到 一 个 这 些 把 戏 最 终结 出 了 一 些 果实 的 迷人 例子 。 
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Microsoft Word 检 查 自身 。 打 开 的 文档 是 文件 WINWORD.EXE， 即 你 点 击 Microsoft Word 时 实 
际 运 行 的 计算 机 程序 。 


有 些 程序 不 可 能 存在 


计算 机 在 执行 简单 指令 上 非常 棒 一 一 事实 上 ， 现 代 计 算 机 每 秒 能 
执行 数 十 亿 次 简单 指令 。 你 也 许 会 想 ， 任 何 任务 都 能 以 人 滑 单 、 精 确 的 
英语 摘 述 并 写成 一 个 计算 机 程序 ， 由 计算 机 执行 。 我 在 这 一 部 分 的 目 


标 是 说 服 你 与 之 相反 的 情况 为 真 : 有 些 简单 、 精 确 的 英语 声明 确实 不 
可 能 写成 计算 机 程序 。 

一 些 简 单 的 是 一 否 程序 《Yes-No Program) 

为 让 这 一 部 分 的 内 容 尽 可 能 简单 ， 我 们 只 会 思考 一 种 非常 无 聊 的 
计算 机 程序 。 我 们 称 它们 为 “是 一 否 ” 程 序 ， 因 为 这 些 程序 唯一 能 做 的 
就 是 弹出 一 个 对 话 框 ， 对 话 框 的 内 容 要 么 是 单词 "yes” 《是 ) 或 单 
词 “no”( 否 ) 。 比 如 ， 我 在 几 分 钟 前 写 了 一 个 名 为 ProgramA.exe 的 计 
算 机 程序 ， 这 个 程序 只 能 生成 下 列 对 话 框 : 


二 | ProgeramA. exe |- 丫 | 色 


注意 看 对 话 框 的 标题 栏 ， 你 能 看 到 生成 这 一 结果 的 程序 名 ProgramA.exe。 


我 还 写 了 男 一 个 名 为 ProgramB.exe 的 计算 机 程序 ， 其 输出 
为 “no” 而 非 “yes”。 


EprogramB. exe 加 x 


ProgramA 和 ProgramB 都 非常 简单 一 一 事实 上 ， 简 单 到 不 需要 任何 
输入 。 《如 果 它 们 确实 接收 到 了 输入 ， 它 们 也 会 忽略 。) 换言之 ， 它 


们 束 古 那些 不 管 给 予 任何 输入 ， 每 次 运行 都 表现 相同 的 程序 的 例子 。 


我 还 创造 了 一 个 名 为 SizeCheckerexe 的 程序 ， 它 是 这 些 是 一 否 程 
序 中 很 有 趣 的 例子 。 给 该 程序 输入 一 个 文件 ， 如 采 文 件 大 于 10 KB， 
程序 就 输出 “yes”"， 反 之 输出 “no”。 如 果 右 键 点 击 一 个 50 M 的 视频 文件 
(假设 是 mymovie.mpg) ， 选 择 “ 打 开 方 式 ”， 选 取 SizeCheckerexe， 你 
歼 会 看 到 如 下 输出 : 


SizeChecker. exe ss 口 iXx 


另外 ， 如 果 我 在 一 条 3KB 的 小 电子 邮件 消息 上 运行 同一 程序 ( 假 
设 是 myemail.msg) ， 输 出 自然 不 同 : 


SizeChecker exe 加 口 x 


此 ，SizeChecker.exe 也 是 有 时 输出 “yes”"， 有 时 输出 “no” 的 是 一 
否 程 序 例子 。 


现在 思考 接 下 来 这 个 稍 有 不 同 的 程序 ， 我 们 称 之 为 
NameSize.exe。 这 个 程序 会 检验 其 输入 文件 的 名 称 ， 如 果 文 件 名 只 
一 个 字母 长 ，NameSize.exe 输 出 “yes”;， 反之 输出 “no”。 这 个 程序 会 有 


哪些 可 能 的 输出 ? 根据 定义 ， 所 有 输入 文件 的 名 称 都 至 少 有 一 个 字母 
长 (否则 ， 文 件 束 没有 名 称 ， 也 就 不 能 在 一 开始 选取 它 ) 。 因 此 ， 
NameSize.exe 会 一 直 输 出 “yes”， 不 管 输入 是 什么 。 


顺便 说 一 句 ， 上 面 提 到 的 几 个 程序 是 用 其 他 程序 作为 输入 时 ， 不 
生成 乱码 的 首 批 程序 例子 。 比 如 ， 文 件 NameSize.exe 的 大 小 只 有 约 8 
KB。 因 此 ， 如 果 你 用 NameSize.exe 作 为 输入 运行 SizeCheckerexe ， 输 
出 为 “mo”( 因 为 NameSize.exe 不 超过 10 KB) 。 我 们 甚至 可 以 让 
SizeCheckerexe 在 目 刁 上 运行 。 这 次 会 输出 “yes”， 因 为 SizeCheckerexe 
要 大 于 10 KB 一 一 事实 上 ， 约 为 12 KB。 类 似 的 ， 我 们 可 以 让 
NameSize.exe 用 上 自身 作为 输入 运行 ， 由 于 文件 名 “NameSize.exe” 包 含 不 
止 一 个 字母 ， 输 出 应 该 是 “yes”。 不 得 不 承认 ， 我 们 到 目前 为 止 讨 论 的 
所 有 是 一 否 程 序 都 相当 无 聊 ， 但 理解 它们 的 行为 很 重要 ， 请 未 行 查 看 
下 面 的 表 ， 确 保 你 赞同 每 项 输出 。 


AlwaysYes.exe: 一 个 分 析 其 他 程序 的 是 一 否 程 
序 


运行 的 程序 输入 文件 


ProgramA.exe address-list.docx 
ProgramA.exe ProgramA.exe 
ProgramB.exe address.-list.docx 


ProgramB.exe 


ProgramA.exe 


SizeChecker.exe | mymovie.mpg (5O0MB) 


SizeChecker.exe | myemail.msg (3KB) 
NameSize.exe (8KB) 
SizeChecker.exe (12KB) 


mymovie.mpg 


SizeChecker.exe 


SizeChecker.exe 


NameSize.exe 


NameSize.exe ProgramA.exe 


NameSize.exe NameSize.exe 


一 些 简 单 是 一 否 程 序 的 输出 。 注 意 无 视 其 输入 一 直 输 出 “yes” 的 程序 (如 ProgramA.exe、 
NameSize.exe) 和 有 时 输出 “no”( 如 SizeChecker.exe) 或 一 直 输 出 “no” 的 程序 (如 
ProgramB.exe) 之 间 的 区 别 。 


现在 我 们 要 思考 一 些 更 有 趣 的 是 一 否 程序 。 我 们 将 要 研究 的 第 一 
个 程序 名 为 “AlwaysYes.exe”°。 这 个 程序 会 检测 输入 文件 ， 如 果 输 入 文 
件 本 号 是 一 个 永远 输出 “yes” 的 是 一 否 程 序 ， 则 AlwaysYes.exe 会 输 
出 *yes”。 反 之 ，AlwaysYes.exe 的 输出 为 “no”。 注 意 AlwaysYes.exe 能 完 
美 运行 任何 种 类 的 输入 文件 。 如 果 你 给 AlwaysYes.exe 的 输入 文件 不 是 
可 执行 程序 (假设 是 addresslist.docx) ， 程 序 会 输出 “no”。 如 果 你 给 
AlwaysYes.exe 的 输入 文件 是 可 执行 程序 (假设 是 WINWORD.EXE) ， 


程序 会 输出 “no”。 如 有 果 你 用 一 个 是 一 否 程序 作为 输入 ， 但 这 个 是 一 否 
程序 有 时 会 输出 “no”， 那 么 AlwaysYes.exe 会 输出 “no”。 只 有 在 你 输入 
一 个 不 管 输入 是 什么 永远 输出 “yes” 的 是 一 否 程 序 时 ，AlwaysYes.exe 才 
会 输出 “yes”。 到 目前 为 止 ， 我们 已 经 在 讨论 中 见 了 两 个 这 样 的 程序 例 
子 : ProgramA.exe 和 NameSize.exe。 下 表 总 结 了 AlwaysYes.exe 用 多 个 
不 同 输入 文件 时 的 输出 ， 包 括 运行 AlwaysYes.exe 目 号 的 情况 。 正 如 你 
在 表 中 最 后 一 行 所 看 到 的 ，AlwaysYes.exe 在 运行 目 身 时 输出 “no”， 
为 AlwaysYes.exe 在 输入 一 些 文件 时 会 输出 “no”。 


AlwaysYes.exe outputs 


address-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 


AlwaysYes.exe 对 多 种 输入 的 输出 。 只 有 永远 输出 “yes” 的 是 一 否 程序 才 会 让 AlwaysYes.exe 输 
“yes” 在 这 里 就 是 ProgramA.exe 和 NameSize.exe。 


在 表 的 倒数 第 二 行 ， 你 也 许 注 意 到 出 现 了 一 个 之 前 未 曾 出 现 的 名 
为 Freeze.exe 的 程序 。Freeze.exe 是 一 鞭 程 序 ， 是 做 计算 机 程序 最 令 人 
讨厌 的 事情 之 一 : 它 会 “冻结 ”(〈 不 管 输入 是 什么 ) 。 你 可 能 自己 经 历 
过 ， 当 一 个 视频 游戏 或 应 用 程序 看 起 来 锁定 (或 “冻结 *”) 了 ， 拒 绝对 
更 多 输入 做 出 响应 。 在 此 之 后 ， 你 唯一 的 选择 就 是 终止 程序 。 如 有 果 这 
还 不 奏效 ， 你 甚至 可 能 需要 关闭 电源 并 重启 。 (有 时候 在 使 用 笔记 本 
电脑 时 ， 断 电 要 移 除 电 池 ! ) 计算 机 程序 冻结 的 原因 多 种 多 样 。 有 时 
是 因为 “ 死 锁 ”， 我 们 在 第 八 章 讨论 过 它 。 在 其 他 情况 中 ， 程 序 也 许 忙 
于 执行 一 项 永远 不 会 结束 的 计算 一 比如， 反复 搜索 一 块 从 未 真正 存 
在 的 数据 。 


不 管 怎 样 ， 我 们 无 须 理解 有 关 冻 结 程 序 的 细节 。 我 们 只 需 知 道 
AlwaysYes.exe 在 给 出 这 人 么 一 个 程序 时 该 怎么 做 即 可 。 事 实 上 ， 
AlwaysYes.exe 的 定义 相当 仔细 ， 答 和 案 也 很 清楚 : AlwaysYes.exe 在 其 输 
入 永远 输出 “yes” 时 输出 "yes”， 反 之 则 输出 “no”。 因 此 ， 当 输入 是 像 
Freeze.exe 一 样 的 程序 时 ，AlwaysYes.exe 必 须 输出 “no”， 这 也 是 我 们 在 
上 图 倒数 第 二 行 看 到 的 结果 。 


YesOnSelf.exe: 一 个 更 人 向 持 的 AlwaysYes.exe 安 
体 


你 也 许 已 经 想到 ，AlwaysYes.exe 是 一 个 相当 聪明 、 有 用 的 程序 ， 
因为 它 能 分 析 其 他 程序 并 预测 它们 的 输出 。 必 须要 承认 的 是 ， 我 并 未 
编写 这 一 程序 一 一 我 只 是 描述 了 在 我 必须 编写 它 的 情况 下 ， 它 会 如 何 
表现 。 现 在 我 要 开始 摘 述 另 一 个 名 为 YesOnSelf.exe 的 程序 。 这 个 程序 
和 AlwaysYes.exe 类 似 ， 但 更 人 简单。 与 输入 文件 永远 输出 “yes” 时 输 


出 “yes” 不 同 的 是 ， 只 有 输入 文件 在 运行 目 身 时 输出 “yes”， 
YesOnSelf.exe 才 会 输 We 反之 则 输 ° 换 言 之， 如果 我 将 
SizeChecker.exe 作 为 YesOnSelf.exe 的 输入 ， 那 么 YesOnSelf.exe 会 对 
SizeChecker.exe 进 行 一 些 分 析 ， 以 判定 SizeCheckerexe 在 将 目 喘 作为 输 
入 运行 时 会 输出 什么 。 正 如 我 们 已 经 知道 的 ( 见 上 一 节 的 表 ) ， 
SizeChecker.exe 运 行 目 身 的 输出 为 “yes”。 因 此 ，YesOnSelf.exe 运 行 
SizeCheckerexe 也 会 输出 “yes”。 你 可 以 使 用 相同 的 推理 得 出 
YesOnSelf.exe 运 行 其 他 多 种 输入 的 结 采 。 注 意 ， 如 果 输 入 文件 不 是 一 
个 是 一 否 程序 ， 那 么 YesOnSelf.exe 会 目 动 输出 “no”。 上 表 显 示 了 一 些 
YesOnSelf.exe 的 输出 一 一 请 尝试 验证 你 理解 了 表 中 每 一 行 ， 因 为 在 继 
续 往 下 读 之 前 ， 理 解 YesOnSelf.exe 的 行为 非常 重要 。 


YesOnSelf.exe outputs 


address-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.exe 
ProgramB.exe 
NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
YesOnSelf.exe 


YesOnSelf.exe 运 行 多 个 输入 的 输出 。 唯 一 生成 “yes” 的 输出 就 是 运行 自身 时 输出 “yes” 的 是 一 否 


程序 ， 即 ProgramA.exe、NameSize.exe 和 SizeCheckerexe。 表 中 最 后 一 行 有 点 神秘 ， 因 为 看 起 
来 哪 种 输出 都 正确 。 文 字 部 分 细致 地 讨论 了 这 一 情况 。 


我 们 要 多 注意 两 件 和 这 个 相当 有 趣 的 程序 YesOnSelf.exe 有 关 的 事 
情 。 第 一， 看 一 下 上 表 最 后 一 行 。YesOnSelf.exe 运 行 目 身 的 输出 应 该 
是 什么 ? 笠 运 的 是 ， 只 有 两 种 可 能 性 ， 因 此 我 们 逐个 思考 。 如 果 输 出 


是 “yes”， 我 们 知道 (根据 YesOnSelf.exe 的 定义 ) ，YesOnSelf.exe 在 运 
行 目 身 时 应 输出 “yes”。 这 有 反馈 天 ,但 如 果 你 仔细 推理 ， 你 会 发 现 所 
有 事情 都 完美 地 保持 一 致 ， 并 被 引导 着 得 出 “yes” 是 正确 答案 的 结论 。 


但 移 别 急 。 假 如 YesOnSelf.exe 运 行 目 身 的 输出 是 “no” 昵 ? 这 意味 
着 〈 还 是 根据 YesOnSelf.exe 的 定义 ) YesOnSelf.exe 在 运行 自身 时 应 该 
输出 “no"”。 和 之 前 一 样 ， 这 一 声明 表现 出 完美 的 一 致 ! 似乎 
YesOnSelf.exe 能 选择 性 输出 。 只 要 其 坚持 自己 的 选择 ， 它 的 答案 吏 会 
正确 。YesOnSelf.exe 行 为 中 的 神秘 自由 很 快 束 会 成 为 一 个 相当 巨大 的 
冰山 之 一 角 ， 但 目前 我 们 还 不 准备 更 深入 探讨 这 一 问题 。 


第 二 ， 我 并 没有 编写 略 显 复杂 的 AlwaysYes.exe 这 一 程序 。 我 所 做 
的 只 十 描述 其 行为 。 然 而 ， 请 注意 ， 如 果 假 设 我 确实 编写 了 
AlwaysYes.exe， 那 么 创建 YesOnSelf.exe 就 会 很 容易 。 为 什么 ? 因为 
YesOnSelf.exe 要 比 AlwaysYes.exe 更 人 简单: YesOnSelf.exe 只 需 检验 一 个 
可 能 的 输入 ， 而 非 所 有 可 能 的 输入 。 


DD anivesonsalt exe YesOnSelf.exe 有 的 反面 


现在 休 妃 一 会 儿 ， 记 住 我 们 想 要 到 达 的 目标 。 本 章 的 目标 是 征明 
查找 朋 江 的 程序 不 可 能 存在 。 但 我 们 现在 的 目标 没 这 么 高 省 。 我 们 只 
古稀 试 发 现 一 个 这 种 程序 不 可 能 存在 的 例子 。 这 将 是 朝 同 我 们 最 终 目 
标的 一 块 踏 脚 石 ， 因 为 一 旦 了 解 如 何 证 明 某 个 特定 的 程序 不 可 能 存 
在 ， 束 可 以 合理 地 直接 将 相同 的 技巧 运用 在 裔 寻 找 程 序 上 。 好 消 县 
征 ， 我 们 非常 接近 这 个 踏 脚 石 目标 。 我 们 将 再 多 研 究 一 个 是 一 否 程序 
就 完成 任务 了 。 


新 程序 被 称 为 “AntiYesOnSelf.exe”。 正 如 其 名 字 所 暗示 的， 这 个 
程序 和 YesOnSelf.exe 非 常 相似 一 一 事实 上 ， 两 个 程序 一 模 一 样 ， 只 是 


输出 铸 反 了 。 如 果 YesOnSelf.exe 对 某 个 特定 输入 输出 “yes”， 那 么 
AntiYesOnSelf.exe 会 对 同一 输入 输出 “no”。 如 果 YesOnSelf.exe 对 某 个 输 
入 输出 “no”，AntiYesOnSelf.exe 会 对 同一 输入 输出 “yes”。 


无 论 输入 文件 是 否 是 一 个 是 一 否 程序 ，AntiYesOnSelf.exe 都 会 ; 
! 回答 这 一 问题 : : 
， 。 输入 程序 在 自身 上 运行 时 是 否 输 出 cnoz? 


对 AntiYesOnSelf.exe 行 为 的 简 


Imr 
I 
泛 
Ee: 


尽管 这 对 完整 精确 地 定义 AntiYesOnSelf.exe 行 为 有 利 ， 但 更 细致 
地 说 明 其 行为 仍然 助 益 多 多 。 还 记得 YesOnSelf.exe 对 于 在 目 吓 上 运行 
时 输出 “yes” 的 输入 输出 “yes"”， 反 之 输出 “no" 吧 。 因 此 ， 
AntiYesOnSelf.exe 对 于 在 目 身 上 运行 时 和 输出 “yes” 的 输入 输出 mo"”， 反 
之 输出 “yes”。AntiYesOnSelf.exe 会 对 其 输入 问 下 列 问 题 : “输入 文件 在 
自身 上 运行 时 是 不 是 不 会 输出 ‘yes*? ” 


不 得 不 承认 ， 对 AntiYesOnSelf.exe 的 摘 述 又 是 个 绕口令 。 你 也 许 
会 想 ， 换 种 说 法 “输入 文件 在 目 员 上 运行 时 是 否 输 出 ‘no’” 要 简单 些 。 为 
什么 这 么 问 不 正确 ? 为 什么 我 们 要 在 “不 输出 ‘yes*” 上 史 唆 ， 而 不 用 更 
简单 的 声明 “输出 mo’”? 答案 是 程序 有 时 会 做 输出 “yes” 或 “no” 之 外 的 
事情 。 因 此 ， 如 果菜 人 告诉 我 们 ， 某 个 特定 程序 不 输出 “yes”"， 我 们 不 
能 自动 得 出 结论 它 会 输出 “no”。 比 如 ， 程 序 可 能 输出 乱码 ， 甚 至 冻 
结 。 不 过 ， 我 们 可 以 对 一 种 特殊 情况 得 出 一 个 更 强 的 结论 : 如 果 我 们 
预先 得 知 一 个 程序 为 是 一 否 程序 ， 那 么 我 们 就 知道 这 个 程序 永远 不 会 
冻结 或 生成 乱码 一 一 程序 永远 会 以 输出 “yes” 或 “ho” 结束 。 因 此 ， 对 于 
是 一 否 程序 而 言 ， 在 “不 输出 ‘yes*” 上 史 唆 相当 于 更 简单 的 声明 “ 输 
出 ‘no’”。 


因此 ， 最 终 我 们 能 对 AntiYesOnSelf.exe 的 行为 给 出 非常 位 单 的 描 
述 。 不 管 输入 文件 是 不 是 一 个 是 一 否 程序 ，AntiYesOnSelf.exe 都 会 回 
答 这 个 问题 : “输入 程序 在 目 身 上 运行 时 是 否 输出 mo:? ”对 
AntiYesOnSelf.exe 行 为 的 这 一 前 释 在 后 面 非常 重要 ， 所 以 我 在 上 框 中 
列 出 了 它 。 


考虑 到 我 们 在 分 析 YesOnSelf.exe 上 所 做 的 工作 ， 为 
AntiYesOnSelf.exe 制 作 一 张 输 出 表 变 得 格外 容易 。 事 实 上 ， 我 们 可 以 
直接 复制 上 文 YesOnSelf.exe outputs 的 表 ， 将 所 有 “yes” 输 出 改 成 “no”， 
反之 亦 然 。 这 么 做 得 到 的 结果 就 是 上 面 这 张 表 。 和 前 面 一 样 ， 最 好 未 
条 审视 表 中 每 一 行 ， 确 认 你 同意 输出 栏 中 每 一 项 。 当 输入 文件 为 是 一 
否 程 序 时 ， 你 可 以 用 前 页 框 中 的 简单 曾 释 ， 而 非 弄 懂 更 早 之 前 给 出 的 
更 复杂 的 解释 。 


AntiYesOnSelf.exe outputs 
输入 文件 
address.-list.docx 
mymovie.mpg 
WINWORD.EXE 
ProgramA.eXe 

programB.exe 

NameSize.exe 
SizeChecker.exe 


Freeze.exe 


AlwaysYes.exe 
AntiYesOnSelf.exe 


AntiYesOnSelf.exe 运 行 多 个 输入 的 输出 。 根 据 定义 ，AntiYesOnSelf.exe 会 生成 YesOnSelf.exe 
肥 的 管 案 ， 因 此 这 张 表 一 一 除了 最 后 一 行 一 一 和 YesOnSelf.exe 的 一 样 ， 只 是 “yes” 输 出 换 成 


了 “no”， 反 之 亦 然 。 如 文中 讨论 的 一 样 ， 判 定 最 后 一 行 极其 困难 。 


你 能 从 表 中 最 后 一 行 看 出 ， 当 我 们 尝试 计算 AntiYesOnSelf.exe 在 
自身 上 运行 时 的 输出 时 ， 一 个 问题 产生 了 。 为 帮助 我 们 分 析 这 一 间 
题 ， 让 我 们 进一步 简化 AntiYesOnSelf.exe 在 上 页 框 中 的 描述 : 与 其 考 


虑 将 所 有 可 能 的 是 一 否 程序 当 作 输入， 我 们 将 集中 精力 于 
AntiYesOnSelf.exe 将 目 身 作为 输入 运行 时 发 生 的 情况 。 因 此 ， 框 中 以 
和 斜体 表示 的 问题 “< 输入 程序 会 .…… ”可 以 转述 为 “AntiYesOnSelf.exe 
会 ...... ”一 一 因为 输入 程序 即 AntiYesOnSelf.exe。 这 是 我 们 需要 的 最 终 
前 释 ， 因 此 它 也 在 下 面 框 中 展示 。 


现在 我 们 准备 好 得 出 AntiYesOnSelf.exe 在 自身 上 运行 的 输出 。 输 
出 存在 两 种 可 能 性 (“yes”* 和 “no”) ， 因 此 完成 这 一 问题 应 该 不 会 太 
难 。 我 们 将 逐一 处 理 每 个 例子 。 


无 论 输 入 文件 是 否 
回答 这 一 问题 : 


AntiYesOnSelf.exe 在 自身 上 运行 时 是 否 输出 “no>9? 


当 AntiYesOnSelf.exe 将 自身 作为 输入 时 对 其 行为 的 简单 描述 。 注 意 ， 这 个 框 只 是 上 文中 框 的 简 
化 版 ， 专 门 针 对 输入 文件 为 AntiYesOnSelf.exe 的 例子 。 


-个 是 一 否 程序 ，AntiYesOnSelf.exe 都 会 


f 


ee se ss se ss sd 


和 
BT 


bb 


例 1 (输出 为 “yes”) : 如 果 输 出 为 “yes”*"， 那 么 对 框 中 粗 体 问题 的 
答 采 就 是 “no”。 但 根据 定义 ， 粗 体 问 题 的 答案 是 AntiYesOnSelf.exe 的 
输出 (再 读 一 遍 框 中 内 容 以 让 自己 确信 ) 一 一 因此 ， 输 出 必 为 “no”。 
总 之 ， 我 们 刚刚 证 明了 如 果 输 出 为 *yes”， 那 么 输出 为 “no”。 不 可 能 ! 
事实 上， 我 们 遇 到 了 一 处 矛盾 。 (如 果 你 对 反 证 法 技巧 不 熟悉 ， 现 在 
是 回顾 本 章 先 前 对 这 一 主题 讨论 的 好 时 机 。 我 们 会 在 下 面 儿 页 反复 用 
到 这 一 技巧 。) 因为 我 们 得 到 了 一 处 矛盾 ， 我 们 对 输出 是 “yes” 的 假设 
必然 不 成 立 。 我 们 已 经 证 明 ，AntiYesOnSelf.exe 在 自身 上 运行 时 的 输 
出 不 可 能 为 “yes”。 让 我 们 转 癌 男 一 种 可 能 性 。 


例 2 (输出 为 “mo”) : 如 果 输 出 为 “no”， 那 么 对 框 中 粗 体 问题 的 答 
案 就 是 “yes"”。 但 和 例 1 一 样 ， 根 据 定 义 ， 粗 体 问 题 鸭 答案 是 
AntiYesOnSelf.exe 的 输出 一 一 因此 ， 输 出 必须 为 “yes”。 换 言 之 ， 我 们 


刚刚 证 明了 如 果 输 出 为 “no”， 那 么 输出 为 "yes”。 和 上 例 一 样 ， 我 们 得 
到 了 一 处 矛盾 ， 因 此 我 们 对 输出 是 no” 的 假设 必然 不 成 立 。 我 们 已 经 
证 明 ，AntiYesOnSelf.exe 在 目 身 上 运行 时 的 输出 不 可 能 为 “no”。 


现在 怎么 办 ? 我 们 已 经 排除 了 AntiYesOnSelf.exe 在 目 身 上 运行 时 
仅 有 的 两 种 可 能 输出 。 这 同样 是 一 个 矛盾 : AntiYesOnSelf.exe 被 定义 
为 一 个 是 一 否 问题 一 一 一 个 永远 以 生成 “是 ”或 “ 否 ” 两 个 输出 之 一 结束 
的 程序 。 然 而 ， 我 们 刚刚 展示 了 一 个 特殊 输入 ， 而 AntiYesOnSelf.exe 
用 这 个 输入 运行 并 不 生成 任 一 上 述 输 出 ! 这 一 矛盾 暗示 我 们 最 初 的 假 
设 为 假 : 因此 ， 并 不 可 能 编写 一 个 行为 和 AntiYesOnSelf.exe 相 像 的 是 
一 否 软 件 。 


现在 你 应 该 知道 了 ， 为 什么 我 非常 小 心地 坦然 承认 自己 并 未 编写 
过 AlwaysYes.exe、YesOn-Self.exe 或 AntiYesOnSelf.exe 中 任何 一 个 。 我 
所 做 的 只 是 描述 如 果 我 确实 编写 了 它们 ， 这 些 程序 会 如 何 表现 。 在 上 
一 段 中 ， 我 们 使 用 了 反 证 法 展示 AntiYesOnSelf.exe 不 可 能 存在 。 但 我 
们 能 证 明 更 多 : AlwaysYes.exe 和 YesOnSelf.exe 也 不 可 能 存在 ! 为 什 
么 ? 你 应 该 能 猜 到 ， 关 键 工具 还 是 反 证 法 。 回 忆 我 们 在 上 文 讨论 如 果 
AlwaysYes.exe 存在 时 的 情景 ， 对 讨论 过 程 稍 作 修改 并 得 出 
YesOnSelf.exe 是 人 否 存 在 的 答案 应 该 会 很 容易 。 而 如 果 YesOnSelf.exe 存 
在 ， 那 么 得 出 AntiYesOnSelf.exe 是 否 存 在 的 答案 也 会 极其 容易 ， 因 为 
我 们 只 须 逆转 输出 即 可 (将 “no”* 换 成 “yes”"， 反 之 亦 然 ) 。 总 之 ， 如 果 
AlwaysYes.exe 存 在 ， 那 么 AntiYesOnSelf.exe 也 存在 。 但 我 们 已 经 知道 
AntiYesOnSelf.exe 不 可 能 存在 ， 因 此 AlwaysYes.exe 也 不 可 能 存在 。 同 
样 的 论点 也 显示 YesOnSelf.exe 不 可 能 存在 。 


记 住 ， 这 整个 部 分 只 是 一 块 踏 脚 石 ， 我 们 的 最 终 目 标 是 证 明 摇 名 
寻找 程序 不 可 能 存在 。 本 部 分 更 适中 的 目标 是 举 一 些 不 可 能 存在 的 程 
序 的 例子 。 我 们 已 经 通过 检验 三 个 不 同 的 程序 达到 了 这 一 目标 ， 那 三 
个 程序 没有 一 个 可 能 存在 。 在 这 三 个 程序 中 ， 最 有 趣 的 要 数 


AlwaysYes.exe。 男 两 个 则 相当 乏味 ， 这 两 个 例子 主要 讲 以 目 喘 为 输入 
运行 的 程序 的 行为 。 男 一 方面 ，AlwaysYes.exe 是 个 非常 强大 的 程序 ， 
因为 只 要 它 存 在 ， 束 能 分 析 其 他 任 一 程序 ， 并 告诉 我 们 那个 程序 古 否 
永远 会 输出 “yes”。 但 我 们 现在 已 经 知道 ， 没 人 能 编写 出 如 此 聪明 、 有 
用 的 程序 。 


发 现 朋 并 的 不 可 能 性 


我 们 终于 准备 好 开始 探讨 一 个 程序 是 否 存 在 的 证 据 ， 这 个 程序 能 
成 功 分 析 其 他 程序 并 判定 它们 是 否 会 崩 演 ， 具体 来 说 ， 我 们 要 证 明 这 
样 一 个 程序 不 可 能 存在 。 在 读 完 上 面 儿 页 后 ， 你 也 许 猪 到 了 我 们 会 用 
反 证 法 。 我 们 一 开始 会 假设 存在 这 样 一 个 程序 : 有 些 名 为 
CanCrash.exe 的 程序 能 分 析 其 他 程序 并 判定 它们 是 否 会 月 泪 。 在 对 
CanCrash.exe 做 一 些 奇怪 、 神 秘 、 令 人 高 兴 的 事情 后 ， 我 们 会 伴 到 一 
处 矛盾 。 


TroubleMaker. exe 


TroubleMakerexe has encountered a probiem and needs to 四 
cilose. We are sorry for the inconvenience. \ 


fyou were inthe middle of something. the intormation you were working on might be 


上 st 
Please tell Microsoft about this problem. 


Wehave created an error reportthat you can send to us. We willtreatthis 
report as confidential and snonymous. 


To see what data this error report contains, dlick here. 


Dam | SendEnorRepon | | Bonsend 


某 种 操作 系统 毅 泪 后 的 结果 。 不 同 的 操作 系统 以 不 同方 式 处 理 般 答 ， 但 我 们 在 过 到 般 溃 时 都 
知道 。 这 个 故意 编写 出 来 的 TroubleMakerexe 会 导致 月 站， 证 明 故 意 导 致 月 溃 很 容易 实现 。 


证 明 过 程 中 有 一 步 要 求 我 们 更 改 一 个 运行 恨 好 的 程序 ， 让 程序 在 
特定 情况 下 月 江 。 我 们 如 何 做 到 这 件 事 ? 事实 上 ， 这 件 事 很 容易 。 程 
序 骨 演 的 原因 很 多 。 其 中 一 种 较为 常见 的 原因 是 程序 尝试 除 以 零 。 在 
数学 中 ， 用 任何 数 除 以 零 得 到 的 结果 都 是 “未 定义 ”(undefined) 。 在 
计算 机 中 ,，“ 未 定义 ”是 个 严重 错误 ， 程 序 不 能 继续 整 会 月 溃 。 因 此 ， 
让 程序 故意 崩 演 的 一 种 简单 方法 是 ， 在 程序 中 搬入 几 段 会 让 程序 除 以 
零 的 多 余 指令 。 事 实 上 ， 这 也 正 是 我 在 上 图 列举 TroubleMaker.exe 例 子 
的 原因 。 


现在 我 们 开始 证 明月 瀑 发 现 程 序 不 可 能 性 的 主要 过 程 。 下 图 总 结 
了 论证 流 。 我 们 一 开始 假设 存在 是 一 否 程 序 CanCrash.exe， 如 果 作 为 
输入 的 程序 会 在 某 种 情况 下 月 并 ，CanCrash.exe 束 会 输出 “yes” 并 结 
束 ; 如 果 输 入 程序 永 不 会 朋 尝 ， 则 CanCrash.exe 束 会 输出 “no” 并 结束 。 


如 果 输 入 能 月 读 ， 输 出 yes 
CanCrash.exe 如 果 输 入 从 不 骨 读 ， 输 出 no 


| 


如 有 果 输 入 能 崩溃 ， 崩 溃 


CanCrashWeird.exe 如 果 输 入 从 不 崩溃 ， 输 出 no 


| 


如 果 输 入 在 自身 上 运行 时 崩溃 ， 
CrashOnSelf.exe 
- 如 果 输 入 在 自身 上 运行 时 不 月 江 ， 
输出 no 


如 果 输 入 在 自身 上 运行 时 崩溃 ， 输 出 yes 


AntiCrashOnSelf.exe ee ee 
如 果 输 入 在 自身 上 运行 时 不 崩溃 ， 崩 溃 


二 条 证 明 四 个 对 省 侦 测 程序 不 可 能 存在 的 序列 。 最 后 一 个 程序 AntiCrashOnSelf.exe 很 显然 不 
可 能 ， 因 为 它 在 自身 上 运行 时 会 产生 了 矛盾。 然而， 每 个 程序 都 能 通过 对 上 一 个 程序 作出 小 改 
变 轻 易 得 到 (如 箭头 所 示 ) 。 因 此 ， 这 四 个 程序 都 不 可 能 存在 。 


现在 我 们 对 CanCrash.exe 做 些 诡异 的 改变 和 输出 “yes” 不 同 的 
是 ， 我 们 会 让 CanCrash.exe 裔 涡 。 (正如 上 面 所 讨论 的 ， 很 容易 通过 
故意 除 以 零 做 到 这 一 点 。) 让 我 们 称 改 变 后 的 程序 为 
CanCrashWeird. exe。 因 此 ， 如 果 输 入 会 朋 泪 ， 那 么 CanCrashWeird.exe 

个 程序 也 会 故意 崩 江 (形成 的 对 话 框 外 观 类 似 于 上 图 ) ， 如 果 输 入 
0 会 朋 沉 ， 则 CanCrashWeird.exe 会 输出 “no” 


中 显示 的 下 一 步 是 将 CanCrashWeird.exe 转 换 成 一 个 更 模糊 的 程 
序 ， 我 们 将 其 称 为 CrashOnSelfexe。 这 个 程序 和 上 一 部 分 的 
YesOnSelf.exe 一 样 ， 只 关注 程序 在 将 自身 作为 输入 时 运行 的 表现 。 特 
别 要 说 明 的 是 ，CrashOnSelf.exe 会 检测 其 输入 程序 ， 如 果 输 入 程序 能 
在 自身 上 运行 ， 则 CrashOnSelf.exe 会 故意 月 并 。 反 之 ， 
CrashOnSelf.exe 会 输出 “no”。 注 意 ， 从 CanCrashWeird.exe 得 到 
CrashOnSelf.exe 很 容易 : 这 一 过 程 和 我 们 在 第 上 文 讨论 的 将 
AlwaysYes.exe 转 换 成 YesOnSelf.exe 的 过 程 一 样 。 


中 四 个 程序 序列 的 最 后 一 步 就 是 将 CrashOnSelf.exe 转 换 成 
AntiCrashOnSelf.exe。 这 人 简单 的 一 步 违背 了 程序 的 行为 ， 如 有 果 其 输入 
在 自身 上 运行 时 月 尝 ，AntiCrashOnSelf.exe 输 出 “yes”。 但 如 果 输 入 在 
自身 上 运行 时 不 朋 溃 ，AntiCrashOnSelf.exe 就 会 故意 朋 溃 。 


现在 我 们 抵达 了 生成 一 处 矛盾 的 地 方 。AntiCrashOnSelf.exe 将 目 
己 作 为 输入 运行 时 会 输出 什么 ? 根据 其 目 身 的 描述 ， 如 采 输 入 朋 误 ， 
AntiCrashOnSelf.exe 束 会 输出 “yes”。 (了 矛盾， 为 如 果 
AntiCrashOnSelf.exe 已 经 朋 洲 ， 它 就 不 能 成 功 输出 “yes” 并 结束 。) 还 
是 根据 其 自身 的 摘 述 ， 如 有 果 输 入 不 月 演 ， 则 AntiCrashOnSelf.exe 应 月 
问 这 一 点 也 目 相 矛盾 。 我 们 已 经 排除 了 AntiCrashOnSelf.exe 两 种 
可 能 的 行为 ， 这 也 意味 着 AntiCrashOnSelf.exe 一 开始 就 不 可 能 存在 。 


最 后 ， 我 们 可 以 用 上 页 图 中 显示 的 转换 链 证 明 CanCrash.exe 也 不 
可 能 存在 。 如 果 它 确实 存在 ， 我 们 殉 能 按 图 中 箭头 所 示 将 其 转换 成 
AntiCrashOnSelf.exe 一 一 但 我 们 已 经 证 明 AntiCrashOnSelf.exe 不 可 能 存 
在 。 这 是 矛盾 之 处 ， 因 此 我 们 假设 CanCrash.exe 存 在 必 为 假 。 


停机 问题 和 不 可 判定 性 


这 就 对 我 们 经 历 计 算 机 科学 中 最 成 熟 、 最 伟大 的 问题 之 一 进行 了 
总 结 。 我 们 已 经 证 明 ， 绝 对 不 可 能 有 人 能 编写 出 一 个 像 CanCrash.exe 
这 样 的 程序 : 分 析 其 他 程序 并 辨认 程序 中 可 能 导致 其 朋 溃 的 所 有 可 能 
漏洞 。 


事实 上 ， 当 理论 计算 机 科学 创始 人 阿兰 . 岁 灵 首 次 于 20 世 纪 30 年 代 
证 明 一 个 像 这 样 的 结果 时 ， 他 对 漏洞 或 朋 冲 完全 不 天心。 毕竟， 当时 
还 没有 电子 计算 机 。 相 反 ， 图 灵 对 一 个 已 有 计算 机 程序 最 终 能 否 生 成 
答案 很 感 兴趣 。 一 个 联系 紧密 的 问题 是 : 一 个 已 有 计算 机 程序 是 否 会 
结束 一 一 或 者 说 它 是 否 会 永远 计算 下 去 ， 而 不 生成 一 个 答案 ? 这 个 已 
有 计算 机 程序 最 终 是 否 会 结束 或 “停止 ”的 问题 束 是 著名 的 停机 问题 
(the halting problem) 。 图 灵 的 伟大 成 就 在 于 ， 计 算 机 科学 家 称 图 灵 
从 停机 问题 得 到 的 变 体 问题 “不 可 判定 ”。 不 可 判定 问题 指 不 能 通过 编 
写 计 算 机 程序 解雇 的 问题 。 因 此 ， 另 一 种 表述 图 灵 结 果 的 方式 是 : 你 
不 能 编写 一 个 名 为 AlwaysHalts.exe， 输 入 永远 俘 止 时 输出 “yes”， 反 之 
输出 “no” 的 计算 机 程序 。 


从 这 个 角度 看 ， 停 机 问题 和 本 章 处 理 的 问题 非常 相似 ， 我 们 可 以 
把 本 章 处 理 的 问题 称 为 崩溃 问题 。 我 们 证 明了 崩溃 问题 的 不 可 判定 
性 ， 但 你 基本 上 可 以 使 用 相同 技巧 证 明 停 机 问题 也 不 可 判定 。 而且， 
正如 你 所 猜测 的 ， 计 算 机 科学 还 有 许多 其 他 问题 不 可 判定 。 


| 不 可 能 程序 的 应 用 有 哪些 ? 


我 收 示 这 一 章 是 故意 作为 先前 章 世 的 对 照 。 前 面 每 一 章 都 捍卫 了 
一 个 绝 佳 思想 ， 每 个 思想 都 会 让 计算 机 更 强大 ， 对 人 类 更 有 用 。 在 本 
章 ， 我 们 见识 了 计算 机 最 基础 的 限制 之 一 。 我 们 见识 到 ， 有 些 问 题 根 
本 不 可 能 通过 计算 机 解决 ， 不 管 计算 机 有 多 强大 或 人 类 程序 员 有 多 聪 


明 。 这 些 不 可 判定 问题 包括 潜在 的 有 用 任务 ， 如 分 析 其 他 程序 以 发 现 
它们 是 否 会 般 溃 。 


这 一 奇怪 的 事实 一 一 有 时 甚至 先 答 一 一 有 什么 影响 ? 不 可 判定 问 
题 的 存在 会 影响 我 们 在 实际 中 使 用 计算 机 吗 ? 人 类 在 人 脑 中 进行 的 计 
算 呢 ， 人 脑 也 不 能 处 理 不 可 判定 问题 吗 ? 


不 可 判定 性 和 计算 机 使 用 


让 我 们 首先 来 探讨 一 下 不 可 判定 性 对 计算 机 使 用 的 实际 影响 。 答 
案 很 简短 : 不 ， 不 可 判定 性 对 计算 的 日 党 实践 没有 太 大 影响 。 原 因 有 
两 个 。 第 一 ， 不 可 判定 性 只 关注 计算 机 程序 能 否 生成 答案 ， 并 不 考虑 
我 们 需要 等 答案 多 久 。 然 而 ， 在 实践 中 ， 效 率 问 题 (也 就 是 你 必须 等 
答案 多 久 ) 极其 重要 。 有 许多 可 判定 任务 还 没有 高 效 算法 。 其 中 最 车 
名 的 要 数 旅 行商 问题 (Traveling Salesman Problem) ， 人 简称 为 TSP 。 
TSP 用 现代 术语 表述 如 下 : 假设 你 必须 飞 往 很 多 城市 (假设 是 20 个 或 
30 个 或 100 个 ) 。 你 应 该 采用 哪 种 顺序 访问 城市 才能 让 飞行 费用 最 少 ? 
我 们 知道 这 个 问题 是 可 判定 的 一 一 事实 上 ， 只 要 少量 经 验 的 新 手 程 序 
员 就 能 编写 一 个 计算 机 程序 寻找 通过 这 些 城市 最 便宜 的 航线 。 问 题 是 
程序 可 能 要 花 数 百 万 年 时 间 来 完成 这 项 工作 。 在 实践 中 ， 这 并 不 够 
好 。 因 此 ， 问 题 可 判定 这 一 事实 并 不 意味 着 我 们 可 以 在 实际 中 解决 
它 。 


不 可 判定 性 实际 效果 有 限 的 第 二 个 原因 是 : 我 们 在 大 部 分 时 间 里 
都 能 很 好 地 解决 不 可 判定 问题 。 本 章 的 主要 例子 就 对 此 进行 了 很 好 的 
展示 。 我 们 按照 一 个 详尽 的 论证 过 程 证 明 ， 没 有 计算 机 程序 能 发 现 所 
有 计算 机 程序 中 所 有 的 漏洞 。 但 我 们 仍然 能 尝试 编写 一 个 漏洞 发 现 程 
序 ， 布 望 其 发 现 大 多 数 计算 机 程序 中 绝 大 多 数 漏洞 。 事 实 上 ， 这 有 是 计 
算 机 科学 中 一 个 非常 活跃 的 研究 领域 。 我 们 在 过 去 几 十 年 所 见 到 的 软 


件 可 靠 性 提升 部 分 得 花 于 裔 误 发 现 程序 的 进步 。 因 此 ， 通 营 能 为 不 可 
判定 问题 找到 非 第 有 用 的 部 分 解决 方案 。 


不 可 判定 性 和 人 脑 


不 可 判定 问题 的 存在 对 人 类 思考 过 程 有 影响 吗 ? 这 一 问题 会 直接 
引出 哲学 中 一 些 高 深 的 经 典 问题 ， 如 意识 的 定义 ， 理 智和 大 脑 的 区 别 
等 。 不 管 怎 样 ， 我 们 对 一 件 事 很 清楚 : 如 果 你 相信 人 脑 在 原则 上 能 被 
计算 机 模拟 ， 那 么 人 脑 束 会 和 计算 机 受 相 同 的 限制 。 换 襄 之 ， 会 存在 
人 脑 无 法 解决 的 问题 一 一 不 管 这 个 人 脑 有 多 聪明 或 经 过 多 么 恨 好 的 训 
练 。 这 一 结论 紧 随 本 章 主要 答案 之 后 出 现 。 如 采 人 脑 能 被 计算 机 程序 
模拟 ， 而 人 脑 能 解决 不 可 判定 问题 ， 那 么 我 们 也 可 以 用 计算 机 模拟 人 
脑 解决 不 可 判定 问题 一 一 这 与 计算 机 程序 不 能 解决 不 可 判定 问题 的 事 
实 相 矛盾 。 


当然 ， 我 们 是 否 能 让 计算 机 精确 模拟 人 脑 的 问题 还 远 示 解决。 从 
科学 观点 来 看 ， 人 脑 和 计算 机 之 间 似 乎 没有 什么 基本 壁垒 ， 因 为 化 学 
和 电子 信和 号 在 人 脑 中 传输 的 低级 细 市 很 好 理解 。 男 外 ， 多 种 哲学 论据 
暗示， 人 脑 创 造 “ 理 智 ” 的 物理 过 程 在 性 质 上 与 计算 机 能 模拟 的 任何 物 
理 系统 有 所 不 同 。 这 些 哲 学 论据 形式 多 样 ， 基 于 我 们 的 目 省 和 直觉 能 
力 ， 或 对 灵性 的 追求 。 


这 个 问题 与 阿兰 :图 灵 在 1937 年 发 表 的 有 关 不 可 判定 性 的 论文 之 间 
有 一 段 迷 人 的 联系 。 这 篇 论文 被 许多 人 视 为 让 计算 机 成 为 一 门 学 科 的 
基石 。 不 笠 的 是 ， 这 篇 论文 的 标题 相当 模糊 : 标题 以 听 起 来 很 乏味 的 


短语 “关于 可 计算 数字 ...... ” (On computable numbers) 开头 ， 结 尾 却 
Dl 2 及 判定 问题 的 应 用 ” (with an application to the 


Entscheidungsproblem) 夏 然 而 止 。 (我 们 在 这 里 不 会 集中 讨论 标题 的 
第 二 部 分 ! ) 在 20 世 纪 30 年 代 ，“computer”( 计 算 机 ) 这 个 单词 的 意 
义 和 现 在 完全 不 同 。 对 于 图 灵 来 说 ， 一 台 “ 计 算 机 ”就 是 一 个 人 ， 用 铅 
笔 和 纸 做 些 算术 。 因 此 ， 图 灵 论 文 标题 中 的 “可 计算 数字 ”原则 上 是 能 


被 人 计算 的 数字 。 但 为 辅助 他 的 论据 ， 图 灵 描 述 了 一 种 同样 能 计算 的 
特殊 机 器 (对 于 图 灵 而 言 ， 一 台 “ 机 器 ”就 是 我 们 所 称 的 “计算 机 ”) 。 
论文 部 分 内 容 则 在 展示 特定 计算 不 可 能 由 这 些 机 器 执行 一 一 这 束 是 我 
们 已 经 细致 讨论 过 的 不 可 判定 性 论证 。 但 同一 论文 的 另 一 部 分 提出 了 
一 个 细致 且 有 说 服 力 的 论据 ， 图 灵 的 “机 器 ”( 请 当 作 计算 机 来 读 ) 能 
执行 由 “计算 机 ”( 请 当 作 人 来 读 ) 执行 的 任何 计算 。 


你 也 许 开始 能 理解 为 何 夸大 叙述 图 灵 “ 关 于 可 计算 数字 ..…..… 论 广 
六 在 本 质 很 困难 了 。 这 篇 论文 不 仅 定义 及 解决 了 计算 机 科学 中 一 些 最 
基本 的 问题 ， 还 深入 哲学 领域 ， 举 出 了 一 个 具有 说 服 力 的 例子 ， 表 明 
人 类 思考 过 程 可 以 被 计算 机 模拟 。 ( 记 住 ， 当 时 计算 机 还 没有 被 发 
明 ! ) 在 现代 哲学 用 语 中 ， 认 为 所 有 计算 机 (还 有 可 能 包括 人 ) 具有 
相同 计算 能 力 的 想法 以 卸 奇 一 图 灵 论 题 (Church-Turing thesis) 而 闻 
名 。 这 一 名 称 同 时 向 阿兰 :图 灵 和 阿 隆 佐 : 皂 奇 致敬 。 阿 隆 佐 : 邢 奇 (之 
前 提 到 过 ) 单独 发 现 了 不 可 判定 问题 的 存在 。 事 实 上 ， 邢 奇 比 图 灵 早 
几 个 月 发 表 目 己 的 成 果 ， 但 邢 奇 的 公式 更 为 抽象 ， 且 并 未 详尽 提 及 由 
机 妖 执 行 的 计算 。 


对 印 奇 一 图 灵 论 题 有 效 性 的 争论 不 断 升 温 。 但 如 果 按 照 最 强 版 本 
的 凶 奇 一 图 灵 论 题 所 持 有 的 观点 ， 那 么 并 非 只 有 计算 机 向 不 可 判定 性 
限制 作 首 称臣 。 同 样 的 限制 不 仅 适 用 于 我 们 指 尖 的 精灵 ， 而 且 也 适用 
于 精灵 背后 的 精灵 : 我 们 的 理智 。 


第 十 一 章 ”绪论 一 一 更 多 在 你 指 尖 的 精灵 


我 们 只 能 望 见 前 方 不 远 处 ， 但 我 们 能 看 到 有 
;年 乞 E 现 申 FE i 


阿兰 :图 灵 ， 
《计算 机 器 与 智能 》，1950 年 
很 幸运 ， 我 于 1991 年 参加 了 伟大 理论 物理 学 家 史 蒂 分 .霍金 
(Stephen Hawking) 举行 的 公开 演讲 。 在 这 场 名 为 “宇宙 未 来 ” (The 
Future of the Universe) 的 宏大 演讲 期 间 ， 霍 金 信 心 满 满 地 预测 ， 宇 宙 
至 少 还 会 膨胀 100 亿 年 。 他 还 扮 着 可 相 补 充 道 : “ 当 我 的 观点 被 证 明 错 
误 时 ， 我 应 该 不 在 了 。 ?对 我 来 说 ， 不 笠 的 是 ， 有 关 计 算 机 科学 的 预测 
并 没有 宇宙 学 家 能 得 到 的 100 亿 年 保质 期 。 我 做 的 任何 预测 都 有 可 能 在 

有 生 之 年 被 反 驶 。 


但 这 不 应 该 阻止 我 们 思考 计算 机 伟大 思想 的 未 来 。 我 们 探索 过 的 
伟大 算法 会 永远 “伟大 ” 吗 ? 其 中 一 些 会 过 时 吗 ? 会 有 新 的 伟大 算法 出 
现 吗 ? 要 回答 这 些 问 题 ， 我 们 需要 更 多 地 像 历 史学 家 而 非 宇宙 学 家 一 
样 思 考 。 这 让 我 想起 了 许多 年 前 的 男 一 次 经 验 ， 在 电视 中 观看 由 备 受 
争议 的 牛津 知名 历史 学 家 A.J.P. 泰 勒 所 做 的 一 些 演讲 。 在 那个 系列 演讲 
末尾 ， 泰 勒 直接 回答 了 会 否 有 第 三 次 世界 大 战 的 问题 。 他 认为 答案 
为 “是 ”， 因 为 人 类 很 有 可 能 “在 未 来 像 过 去 所 做 过 的 一 样 行事 ”。 


因此 ， 让 我 们 跟随 A.JP: 泰 勒 的 领导 ， 辐 历史 的 安 大 鞠 躬 。 本 书 摘 
述 的 伟大 算法 得 目 货 罕 20 世 纪 的 事件 及 发 明 。 似 乎 假设 21 世 纪 以 类 似 


步伐 前 进 很 合理 ， 每 隔 20 或 30 年 束 有 一 类 新 算法 轿 露 头角 。 在 一 些 情 
况 中 ， 这 些 算法 会 具备 惊人 的 原创 性 ， 十 科学 家 们 梦 几 以 求 的 全 新 反 
术 。 公 钥 加 密 和 相关 的 数字 签名 算法 就 是 这 类 算法 的 例子 。 在 其 他 情 
况 中 ， 算 法 也 许 已 经 在 实验 社区 存在 了 一 段 时 间 ， 等 待 借助 合适 的 新 
技术 潮流 让 它们 得 到 广泛 应 用 。 索 引 和 排名 的 搜索 算法 就 属于 这 类 : 
类 似 算 法 在 名 为 信息 检索 的 领域 存在 了 多 年 ， 但 网 络 搜索 现象 让 这 些 
算法 变 得 “伟大 ”一 一 在 普通 计算 机 用 户 日 常 使 用 的 意义 上 。 当 然 ， 这 
些 算法 为 目 己 的 新 应 用 而 进化 ，PageRank 算 法 束 是 个 好 例子 。 


注意 ， 新 技术 的 出 现 并 不 一 定 会 导致 新 算法 产生 。 想 想 笔记 本 电 
脑 在 20 世 纪 80 年 代 及 90 年 代 的 显著 增长 。 通 过 极 大 增加 可 访问 性 和 便 
携 性 ， 笔 记 本 电脑 草 命 化 了 人 们 使 用 计算 机 的 方式 。 笔 记 本 电脑 还 引 
发 了 多 个 领域 极其 巨大 的 进步 ， 如 屏幕 拉 术 和 电池 管理 技术 。 但 照 我 
看 ， 目 笔记 本 电脑 单 命 以 来 再 没有 伟大 算法 出 现 。 相 反 ， 互 联网 的 出 
现 束 古 一 项 导致 许多 伟大 算法 出 现 的 技术 : 互联 网 通过 提供 搜索 引擎 
能 存在 的 基础 架构 ， 让 索引 和 排名 算法 得 以 跻 喘 伟大 算法 行列 。 


因此 ， 尽 管 技 术 半 新 不 可 置疑 的 加 速 继续 在 我 们 周围 出 现 ， 但 并 
不 能 保证 新 的 伟大 算法 的 出 现 。 事 实 上 ， 相 反方 向 上 有 一 种 强大 的 历 
史 力 量 在 作用 ， 上 暗示 算法 创新 的 步伐 将 在 未 来 减 慢 。 我 说 的 是 计算 机 
科学 作为 一 门 科学 学 科 开 始 成 熟 。 同 物理 学 、 数 学 和 化 学 等 领域 相 
比 ， 计 算 机 科学 非常 年 轻 ， 它 于 20 世 纪 30 年 代 发 端 。 因 此，20 世 纪 发 
现 的 伟大 算法 也 许 已 经 是 唾 手 可 得 的 硕 采 ， 在 未 来 发 现 广 沁 应 用 的 精 
巧 算法 将 变 得 越 来 越 困 难 。 


因此 ， 我们 有 两 个 相互 竞争 的 效果 : 新 技术 提供 的 新 活动 

(niche) 时 常 为 新 算法 提供 空间 ， 而 该 领域 的 逐渐 成 熟 会 缩小 这 些 机 

会 。 总 之 ， 我 倾 问 于 认为 这 两 种 效 采 会 彼此 中 和 ， 让 未 来 新 的 伟大 算 
法 缓慢 但 稳定 地 出 现 。 


一 些 可 能 的 伟大 算法 


当然 ,一些 新 的 伟大 算法 会 以 完全 出 人 意料 的 方式 出 现 ， 现 在 也 

不 可 能 对 未 来 的 伟大 算法 说 些 什 么 。 但 一 些 现存 的 活动 和 技术 有 很 清 

晰 的 湾 力 。 其 中 一 个 明显 趋势 是 人 工 六 能 在 日 党 生活 中 的 逐渐 使 用 

(特别 是 图 形 识别 ) ， 如 果 有 任何 令 人 震 尺 的 窑 新 算法 瑰宝 在 这 一 领 
域 出 现 ， 会 让 人 非常 着 迷 。 


男 一 个 潜力 非 几 的 领域 是 一 类 名 为 “ 零 知 识 协 议 ” (zero knowledge 
protocols) 的 算法 。 这 些 协 议 使 用 一 种 特殊 的 加 密 方法 ， 以 实现 一 些 
比 数 字 签 名 更 令 人 惊讶 的 事情 : 它们 能 让 两 个 或 更 多 实体 将 信息 组 织 
起 来 ， 而 不 用 显示 任何 单 块 信息。 和 零 知 识 协 议 的 潜在 用 途 之 一 是 在 线 
拍卖 。 通 过 使 用 该 协议 ， 竞 担 者 能 以 加 密 方式 向 彼此 提交 各 目的 竞 
价 ， 从 而 判定 赢得 竞拍 的 人 ， 但 任何 其 他 竞价 的 信息 都 不 会 向 任何 人 
展示 ! 如 果 零 知识 在 现实 中 运用 的 话 ， 这 样 一 个 聪明 的 想法 肯定 会 轻 
易 满 足 我 的 伟大 算法 行列 标准 。 但 目前 为 止 ， 它 们 还 未 被 广泛 使 用 。 


男 一 种 获得 众多 学 术 人 研究 但 实际 应 用 有 限 的 思想 是 一 种 名 为 “分 布 
式 哈 希 表 ” (distributed hash table) 的 技术 。 这 些 表 是 一 种 在 点 对 点 系 
统 一 个 没有 中 央 服 务 絮 引导 信息 流 的 系统 存储 信息 的 精巧 
方法 。 然 而 ， 在 写作 本 书 时 ， 许 多 号 称 点 对 点 的 系统 实际 上 仍 在 一 些 
功能 上 使 用 中 央 人 处 理 器 ， 因 此 无 需 依赖 分 布 式 哈 希 表 。 


“拜占庭 容 销 ”(Byzantine fault tolerance) 技术 也 属于 这 一 类 : 这 
是 一 种 令 人 惊讶 但 美丽 的 算法 ， 不 过 仍然 不 能 算 作 伟大 ， 因 为 没什么 
人 采用 。 和 拜占庭 容错 允许 特定 计算 机 系统 耐 受 任何 种 类 的 错误 (只 
同时 不 出 现 太 多 错误 ) 。 这 与 平常 的 容错 概念 系统 能 笠 免 的 错误 
更 轻微 ， 如 磁盘 驱动 器 永久 失效 或 操作 系统 崩溃 一 一 相反 。 


伟大 算法 会 消逝 吗 ? 


除了 推测 什么 算法 会 在 未 来 步 入 伟大 行列 之 外 ， 我 们 也 许 还 会 
想 ， 目 前 的 “伟大 ”算法 中 一 一 我 们 想 都 不 想 经 常用 到 的 不 可 取代 的 工 
具 一 一 和 是否 有 一 些 会 逐渐 起 失 其 重要 性 。 历 史 在 这 里 也 能 指引 我 们 。 
如 果 我 们 将 注意 力 限 制 在 特定 算法 上 ， 算 法 肯定 会 形 失 重要 性 。 最 明 
显 的 例子 在 密码 学 中 ;在 发 明 痢 加 密 算 法 的 研究 人 员 和 发 明 破 解 这 些 
算法 安全 性 的 研究 人 员 之 间 ， 进 行 着 一 场 不 间断 的 军备 竞赛 。 作 为 一 
个 特例 ， 思 考 一 下 所 请 的 加 密 哈 希 函数 。 名 为 MD5 的 哈 布 函数 是 一 个 
官方 互联 网 标准 ， 目 20 世 纪 90 年 代 开 始 广 泛 使 用 ， 然 而 目 此 以 后 MD5 
的 重大 安全 缺陷 被 不 断 发 现 ， 人 们 不 再 推荐 使 用 MD5。 类 似 的 ， 我 们 
在 第 九 章 讨论 过 这 一 事实 : 如 果 搭 建 一 个 合理 体积 的 量子 计算 机 成 为 
可 能 ，RSA 数 字 签 名 机 制 将 轻易 被 攻破 。 


然而 ， 我 认为 用 这 样 的 例子 来 回答 我 们 的 问题 太 片 面 。 的 确 ， 
MD5 有 人 缺陷 《顺便 说 一 下 ， 其 主要 继承 者 SHA-1 也 是 ) ,但 这 并 不 意 
味 着 加 密 哈 希 函 数 的 中 心思 想 束 无 天 紧要 了 。 的 确 ， 这 类 险 布 函数 运 
用 得 非常 广泛 ， 也 还 有 许多 未 被 破解 的 算法 。 因 此 ， 我 们 用 足够 宽广 
的 视角 看 待 这 一 情况 ， 并 准备 好 在 获取 算法 主要 思想 时 适应 算法 特 
例 ， 现 今 许多 伟大 算法 似乎 不 大 可 能 在 未 来 起 失 其 重要 性 。 


| 我 们 学 到 了 什么 ? 


能 从 本 书展 示 的 伟大 算法 中 得 出 什么 通用 主题 吗 ? 其 中 一 个 主题 
征 ， 所 有 大 思想 都 能 在 不 需要 任何 计算 机 编程 或 其 他 计算 机 科学 知识 
的 情况 下 得 到 解释 。 作 为 本 书 作者 ， 我 感到 很 惊讶 。 当 我 开始 着 手 这 
本 书 时 ， 我 以 为 能 将 这 些 伟大 算法 分 成 两 类 。 第 一 类 是 一 些 核心 思想 
中 运用 了 稍 单 但 聪明 的 把 戏 的 算法 一 一 这 些 把 戏 无 须 任 何 技术 性 知识 


忠 能 得 到 解释 。 第 二 类 算法 与 高 等 计算 机 科学 思想 联系 紧密 ， 不 能 后 
没有 该 领域 背景 知识 的 读者 解释 。 我 原 计 划 通 过 讲 些 第 二 类 算法 (可 
能 ) 有 趣 的 历史 轶 事 来 涵盖 一 些 这 类 算法 ， 解 释 它们 的 重要 应 用 ， 并 
言 之 赣 赣 地 称 这 些 算 法 非 党 精巧， 即便 我 不 能 解释 它们 如 何 运 行 。 当 
我 发 现 目 己 选 择 的 所 有 算法 都 归属 为 第 一 类 时 ， 想 想 我 有 多 高 兴 、 多 
惊讶 ! 当然 ， 我 省 略 了 许多 重要 的 技术 细 季 ， 但 在 每 个 例子 中 ， 让 人 整 
件 事 奏 效 的 天 键 机 制 可 以 通过 使 用 非 专业 性 概念 解释 。 


本 书 所 有 算法 的 男 外 一 个 重要 的 通用 主题 是 ， 计 算 机 科学 领域 并 
不 仅仅 征 编 程 。 每 当 我 教授 一 门 入 门 计算 机 科学 课程 ， 我 都 会 要 求学 

告诉 我 ， 他 们 认为 计算 机 科学 究 竞 是 什么 。 到 目前 为 止 , 最 常见 的 
回答 是 “编程 ”， 或 类 似 的 “软件 工程 ”。 当 我 继续 要 求 他 们 说 出 计算 机 
科学 的 其 他 方面 时 ， 许 多 学 生 被 难 住 。 但 接 下 来 回答 的 学 生 通 常会 说 
些 和 硬件 有 关 的 东西 ， 如 “硬件 设计 ”。 这 是 对 计算 机 科学 家 真正 从 事 
的 工作 的 一 种 流行 误解 的 强力 证 据 。 读 过 这 本 书后 ， 我 希望 你 能 对 计 
算 机 科学 家 思考 的 问题 ， 他 们 提出 的 解决 方案 有 更 具体 的 了 解 。 


在 这 里 举 个 简单 夫 比 会 很 有 硕 助 。 假 设 你 遇 到 了 一 位 主要 人 研 完 兴 
趣 是 日 本 文学 的 教授 。 极 有 可 能 这 位 教授 能 说 、 读 以 及 写 日 文 。 但 如 
林 你 被 要 求 猜测 这 位 教授 在 进行 研究 时 在 什么 上 人 花 了 最 多 时 间 进 行 思 
考 ， 你 不 会 猜 是 “日 本 语言 "。 尽 管 ， 日 本 语言 是 研究 组 成 日 本 文学 的 
主题 、 文 化 和 历史 的 必要 知识 。 另 一 方面 ， 说 一 口 完 类 日 语 的 人 也 许 
完全 无 视 日 本 文学 〈 日 本 可 能 有 数 百 万 这 样 的 人 ) 。 


计算 机 编程 语言 和 计算 机 科学 主要 思想 之 间 的 关系 与 上 面 的 情况 
很 相似 。 要 应 用 并 实验 算法 ， 计 算 机 科学 研究 者 需要 将 算法 转换 成 计 
算 机 程序 ， 而 每 个 程序 都 由 Java、C++ 或 Python 等 编程 语言 编写 。 
此 ， 编 程 知识 是 计算 机 科学 家 所 必需 的 ， 但 却 只 是 前 提 : 在 见识 了 本 
书 中 的 伟大 算法 以 后 ， 我 希望 读者 们 能 对 这 一 区 别 有 更 清楚 的 理解 。 


旅程 终 所 


我 们 已 经 抵达 深奥 但 也 日 常 的 计算 世界 的 终点 。 我 们 实现 目 己 的 
目标 了 吗 ? 你 和 计算 设备 的 互动 会 因此 不 同 吗 ? 


下 次 当 你 访问 一 个 安全 网 站 时 ， 你 也 许 会 想 知 道 谁 为 其 可 信和 度 担 
保 ， 并 检查 你 的 网 络 浏览 器 侦 测 到 的 数字 证 书 链 〈 第 九 章 ) 。 或 者 当 
你 下 次 遇 到 在 线 交 易 因 为 未 知 原 因 失 败 时 ， 你 会 深 深 感激 ， 而 不 是 困 
惑 ， 因 为 你 知道 数据 库 一 致 性 会 确保 你 不 会 为 订购 失败 的 东西 付费 
(第 八 章 ) 。 或 者 未 来 某 天 你 会 自 娱 目 乐 地 说 : “如 果 计 算 机 能 为 我 做 


这 件 事 该 多 好 啊 ” 一 一 但 你 知道 这 不 可 能 ， 因 为 使 用 在 毅 溃 发 现 程序 中 
用 到 的 相同 方法 ， 你 想 让 计算 机 做 的 任务 被 证 明 不 可 判定 (第 十 
章 ) 


我 肯定 你 能 想到 更 多 例子 ， 在 这 些 例子 中 ， 伟 大 算法 的 知识 也 许 
能 改变 你 与 计算 机 互动 的 方式 。 然 而 ， 正 如 我 在 前 言 中 仔细 说 明 的 ， 
这 并 非 本 书 的 主要 目的 。 我 的 主要 目的 是 让 读者 有 足够 多 和 伟大 算法 
有 天 的 知识 ， 让 他 们 在 一 些 日 常 计算 任务 时 能 遐想 片刻 一 一 束 像 一 名 
业余 天 文学 家 高 度 案 谷 夜 空 一 样 。 


只 有 你 一 一 我 的 读者 一 一 知道 我 是 否 成 功 地 实现 了 这 一 目标 。 但 
有 件 事 很 肯定 : 你 目 己 的 个 人 精灵 吏 在 你 的 指 尖 。 请 目 由 使 用 。 


致谢 


你 这 条 我 走 着 的 ， 并 还 在 四 面 环顾 着 的 路 啊 ， 我 相信 你 不 知 
眼下 这 一 点 ， 我 相信 这 里 也 还 有 许多 看 不 见 的 东西 。 


沃尔特 : 惠 特 曼 ， 


《大 路 歌 》 (Song of the Open Road ) 


许多 朋友 、 同 事 和 家 人 阅读 了 部 分 或 所 有 草稿 。 他们 是 亚 历 殉 斯 : 
贝 交 、 威 尔 森 :贝尔 、 麦 殉 : 巴 罗斯 、 沃 尔 特 : 克 劳 米 亚 殉 、 近 克 尔 : 艾 院 
德 、 阿 拉 斯 泰 尔 : 麦 考 密 殉 、 珊 要 : 麦 考 密 殉 、 妮 可 亲 塔 :马里 尼 - 迈 欧 、 
弗兰克 :麦克 谢 里 、 克 和 莉 斯 汀 : 米 切 尔 、 伊 莉 亚 : 米 罗 诺 夫 、 温 迪 - 波 拉 
区 、 朱 迪 斯 波 特 、 科 顿 . 西 勒 、 海 伦 : 搭 卡 克 斯 、 库 纳 尔 ' 搭 尔 瓦 、 送 姆 : 
瓦尔 斯 、 乔 纳 森 ' 瓦 勒 、 马 迪 : 维 德 和 奥 利 : 威 廉 姆 斯 。 这 些 读 者 的 建议 
极 大 地 提升 了 书稿 的 质量 。 两 位 匿名 审阅 者 的 评论 也 让 书稿 得 到 了 很 
大 提升 。 


殉 里 斯: 毕 晓 普 给 予 了 我 葡 励 和 建议 。 淘 姆 ` 米 切 尔 给予 了 我 在 第 六 
革 使 用 他 的 图 片 和 源 代码 的 授权 。 


在 孵化 本 项 目 并 让 它 开 花 结 采 上 ， 本 书 编 辑 维 琪 .区 恩 和 她 在 普宁 
斯 顿 大 学 出 版 社 的 同事 居 功 至 伟 。 


我 在 迪 金 森 学 院 数学 与 计算 机 科学 部 门 的 同事 对 本 书 予 以 了 持久 
文 持 和 帮助 。 


迈 苑 尔 ' 艾 院 德 和 麦克 ' 巴 多 斯 癌 我 展示 了 计算 的 愉悦 和 类 丽 。 安 德 
鲁 : 布 菜 克 教会 了 我 如 何 成 为 一 名 更 好 的 科学 家 。 


我 的 妻子 克 莉 斯 汀 一 直 在 支持 我 。 
我 向 以 上 所 有 人 致 以 最 深 的 谢意 。 本 书 并 我 的 爱 献 给 克 莉 斯 汀 。 


自 赵 萝 东 译本 。 


Es 


